强化学习基础教程:基本概念、定义、要素及方法分类
创作时间:
作者:
@小白创作中心
强化学习基础教程:基本概念、定义、要素及方法分类
引用
CSDN
1.
https://blog.csdn.net/Ever_____/article/details/133362585
强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念
1.基础概念
1.1 强化学习的定义
- 实现序贯决策的机器学习方法—强化学习(reinforcement learning)
- 强化学习定义:机器通过与环境进行交互,不断尝试,从错误中学习,做出正确决策从而实现目标的方法。
- 强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
- 强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器,交互是迭代进行
- 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励(注意是即时奖励)信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。
- 强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward),来指导更好的动作,从而获得最大的收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习
1.2 强化学习的基本要素
动作(action):智能体作出的决策行为
智能体(agent):学习器与决策者,作出动作的主体
状态(state):智能体从环境中获得到的信息
奖励(reward):环境根据状态与智能体做出的动作产生的反馈信号,用R或r表示
回报(return):未来的累积奖励,用Ut表示从t时刻到结束时的累积奖励
策略(policy):一般用π表示,由观测到的状态根据策略决定作出动作
2.强化学习分类
2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法
- Policy based RL :学习一个策略函数π(a|s),无需构造价值函数,如REINFORCE算法
- *Value based RL:学习最优动作价值函数Q ∗ Q^Q∗,无需策略函数,如Q-learning,Sarsa,DQN方法
- Actor-Critic方法:一种特别的方法,上述两者的结合,Actor会基于概率作出动作,Critic会根据作出的动作打分,是一类结合了策略评估(Critic)和策略改进(Actor)的强化学习算法。它们通过同时学习一个策略函数(Actor)和一个值函数(Critic),从而可以更有效地学习到优秀的策略;A2C (Advantage Actor-Critic)、A3C (Asynchronous Advantage Actor-Critic)、DDPG (Deep Deterministic Policy Gradient)、TD3 (Twin Delayed Deep Deterministic Policy Gradient)、PPO (Proximal Policy Optimization)等算法均是Actor-Critic方法
2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与model-free
- model-based:学习环境的模型,通过学习状态转移概率P ( s , s ′ ) P(s,s')P(s,s′)采取行动
- model-free:无环境的模型,通过学习价值函数V π ( s ) V_\pi(s)
热门推荐
人工智能的伦理原则有哪些
普通人如何通过理财实现财务自由?
人事部门如何助力企业竞争力提升?
掌握这些拍花小技巧,你也能成摄影大神!
飞牛教你优化Docker Compose代理配置
加州理工学院突破光帆技术:为星际旅行开辟新路径
走出职场迷茫,突破“花盆效应”
如何准确计算你的总负债?避免被银行拒绝贷款!
张居正改革的贡献与失败探析
专家支招:如何缓解返校焦虑?
《哪吒2》票房破百亿,网上突然涌现大量差评,《美队4》即将定档
紫薇八字六爻的区别:入门难易度与预测准确性全解析
简历包装有技巧,避免踩雷!
股票面值的解释:股票面值是什么意思
城中村拆迁的补偿最新标准2025年
心理学揭秘:如何找到你的正缘?
免费的 3D 建模软件精选推荐
从“枪王之王”陈国韬学射击:0.6秒出枪的实战秘诀
Unity入门:创建第一个2D程序
声音的魔力:解码恋爱中的声音吸引力
豆粕价格暴跌,养殖户如何应对?
福山新书《身份政治》揭示现代社会发展新趋势
思想碰撞:哲学与科学的对话及其意义
掌握最新网络热梗,成为搞笑高手!
探访黄姚古镇:郭家大院与司马第的秘密
教授洞见 | 陈宪:内卷是退化不是竞争
人工智能是如何思维的?
你的个人空间,就是你的心灵避风港
C语言入门学习系列:基本语法
《流浪地球2》热映,这些科幻游戏你玩过吗?