强化学习基础教程:基本概念、定义、要素及方法分类
创作时间:
作者:
@小白创作中心
强化学习基础教程:基本概念、定义、要素及方法分类
引用
CSDN
1.
https://blog.csdn.net/Ever_____/article/details/133362585
强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念
1.基础概念
1.1 强化学习的定义
- 实现序贯决策的机器学习方法—强化学习(reinforcement learning)
- 强化学习定义:机器通过与环境进行交互,不断尝试,从错误中学习,做出正确决策从而实现目标的方法。
- 强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
- 强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器,交互是迭代进行
- 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励(注意是即时奖励)信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。
- 强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward),来指导更好的动作,从而获得最大的收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习
1.2 强化学习的基本要素
动作(action):智能体作出的决策行为
智能体(agent):学习器与决策者,作出动作的主体
状态(state):智能体从环境中获得到的信息
奖励(reward):环境根据状态与智能体做出的动作产生的反馈信号,用R或r表示
回报(return):未来的累积奖励,用Ut表示从t时刻到结束时的累积奖励
策略(policy):一般用π表示,由观测到的状态根据策略决定作出动作
2.强化学习分类
2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法
- Policy based RL :学习一个策略函数π(a|s),无需构造价值函数,如REINFORCE算法
- *Value based RL:学习最优动作价值函数Q ∗ Q^Q∗,无需策略函数,如Q-learning,Sarsa,DQN方法
- Actor-Critic方法:一种特别的方法,上述两者的结合,Actor会基于概率作出动作,Critic会根据作出的动作打分,是一类结合了策略评估(Critic)和策略改进(Actor)的强化学习算法。它们通过同时学习一个策略函数(Actor)和一个值函数(Critic),从而可以更有效地学习到优秀的策略;A2C (Advantage Actor-Critic)、A3C (Asynchronous Advantage Actor-Critic)、DDPG (Deep Deterministic Policy Gradient)、TD3 (Twin Delayed Deep Deterministic Policy Gradient)、PPO (Proximal Policy Optimization)等算法均是Actor-Critic方法
2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与model-free
- model-based:学习环境的模型,通过学习状态转移概率P ( s , s ′ ) P(s,s')P(s,s′)采取行动
- model-free:无环境的模型,通过学习价值函数V π ( s ) V_\pi(s)
热门推荐
大疱性皮肤病和带状疱疹的区别
为什么无糖可乐不升糖,还是不建议你喝?
刘亦菲出道22年拍了7部剧,部部都是爆款,你看过哪些?
如何挑选适合自己的电动车坐垫
做好这6件事,可加快心肌炎恢复速度!
想要申博,硕士期间必须具备的硬性条件!
猩红热是什么病传染吗
Excel页码设置完全指南:从基础到进阶技巧
Excel表格中显示页码的四种方法
浅谈游戏关卡设计:剧情、场景与反派的完美融合
C端如何做好客户管理
《岳阳楼记》:范仲淹的家国情怀与人生哲理的深度剖析
我国氧化镓外延生长技术取得重大突破,第四代半导体渐行渐近
法律如何规定因病申请退休
文献公张九龄:唐代贤相与杰出诗人的双重传奇
张九龄《望月怀远》全诗原文、注释、翻译和赏析
直播行业的现状、挑战与未来:一场数字化经济的深刻变革
如何有效解决游戏卡顿掉帧问题?游戏技巧大
数据科学与大数据技术需要什么样的技能?
CBA最新动态:王少杰受伤情况公布,哈雷尔加盟新疆,广厦更换外援!
电脑使用篇:6 个最佳数据恢复软件解决方案
正史中的张飞是个怎样的人?居然和《三国演义》判若两人
中专毕业有哪些升学政策?一文看懂!
限号禁行违章处理指南:扣分罚款依据及处理流程详解
高利贷是违法的吗
豆浆热量是多少?营养科医生来解答
网贷村民集体不还钱结果怎么样了:一个潜在的金融风险与社会影响
医用注射泵校准计量:精准医疗的注脚
从生活住所到网红打卡点:一顶蒙古包看百年变迁
如何评估现有统计指标设计原则的有效性?