强化学习基础教程:基本概念、定义、要素及方法分类
创作时间:
作者:
@小白创作中心
强化学习基础教程:基本概念、定义、要素及方法分类
引用
CSDN
1.
https://blog.csdn.net/Ever_____/article/details/133362585
强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念
1.基础概念
1.1 强化学习的定义
- 实现序贯决策的机器学习方法—强化学习(reinforcement learning)
- 强化学习定义:机器通过与环境进行交互,不断尝试,从错误中学习,做出正确决策从而实现目标的方法。
- 强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
- 强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器,交互是迭代进行
- 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励(注意是即时奖励)信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。
- 强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward),来指导更好的动作,从而获得最大的收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习
1.2 强化学习的基本要素
动作(action):智能体作出的决策行为
智能体(agent):学习器与决策者,作出动作的主体
状态(state):智能体从环境中获得到的信息
奖励(reward):环境根据状态与智能体做出的动作产生的反馈信号,用R或r表示
回报(return):未来的累积奖励,用Ut表示从t时刻到结束时的累积奖励
策略(policy):一般用π表示,由观测到的状态根据策略决定作出动作
2.强化学习分类
2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法
- Policy based RL :学习一个策略函数π(a|s),无需构造价值函数,如REINFORCE算法
- *Value based RL:学习最优动作价值函数Q ∗ Q^Q∗,无需策略函数,如Q-learning,Sarsa,DQN方法
- Actor-Critic方法:一种特别的方法,上述两者的结合,Actor会基于概率作出动作,Critic会根据作出的动作打分,是一类结合了策略评估(Critic)和策略改进(Actor)的强化学习算法。它们通过同时学习一个策略函数(Actor)和一个值函数(Critic),从而可以更有效地学习到优秀的策略;A2C (Advantage Actor-Critic)、A3C (Asynchronous Advantage Actor-Critic)、DDPG (Deep Deterministic Policy Gradient)、TD3 (Twin Delayed Deep Deterministic Policy Gradient)、PPO (Proximal Policy Optimization)等算法均是Actor-Critic方法
2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与model-free
- model-based:学习环境的模型,通过学习状态转移概率P ( s , s ′ ) P(s,s')P(s,s′)采取行动
- model-free:无环境的模型,通过学习价值函数V π ( s ) V_\pi(s)
热门推荐
真如宣传的那样牛?俄罗斯“锆石”外形终于曝光!性能究竟如何?
八字甲乙丙丁命格如何—生辰八字甲乙丙丁是什么意思
灯具价格怎么定价,探析家居市场的秘密
上颚痒是什么原因
详解八字格局的从弱格
RabbitMQ中如何防止消息堆积的情况发生?
如何应对市场波动以保护投资价值?这种波动对投资组合有何长期影响?
Yeoman:一个现代化软件开发工具的详尽解析
亚马逊卖家注意啦!儿童产品出口美国需提供CPC证书
智驾企业发展模式走向十字路口——纵目科技全面停转的启示
媒介发稿效果如何提升?浅析五大提升发稿效果的实用技巧
油漆怎么洗掉最简单方法
猫咪拉肚子脱水了怎么办
哪些食物能帮助排便
胰腺癌高发诱因曝光:这些饮食习惯需警惕
胡同旧名新颜:老北京的记忆与变迁
股票交易必懂:除权(XR)和除息(XD)详解
难治性类风湿关节炎有新解!四代CAR-T细胞疗法实现高效治疗!
类风湿关节炎B细胞免疫研究新发现
马上2025年了,还有厂商在阉割5G频段?
成长型思维:成就更好的自己
如何制定跨境电商的多语言支持策略
大约一半的人都感染幽门螺杆菌,出现这些症状,及时筛查!
77%的严重过敏诱因是食物!这8类食物是常见过敏原
哪吒2票房奇迹背后的数据如何预测
海南乐东尖峰岭:热带原始雨林的璀璨明珠
如何写出让人眼前一亮的读书笔记:技巧、模板及案例详解
奥美拉唑可以长期吃吗?专家解读其潜在风险与注意事项
合法转移资金所有权的方法和流程
女人决心离婚时,这四个步骤助你妥善处理