强化学习基础教程:基本概念、定义、要素及方法分类
创作时间:
作者:
@小白创作中心
强化学习基础教程:基本概念、定义、要素及方法分类
引用
CSDN
1.
https://blog.csdn.net/Ever_____/article/details/133362585
强化学习基础教程:基本概念、强化学习的定义,要素,方法分类 以及 Rollout、episode回合、transition转移、trajectory轨迹的概念
1.基础概念
1.1 强化学习的定义
- 实现序贯决策的机器学习方法—强化学习(reinforcement learning)
- 强化学习定义:机器通过与环境进行交互,不断尝试,从错误中学习,做出正确决策从而实现目标的方法。
- 强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
- 强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器,交互是迭代进行
- 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励(注意是即时奖励)信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。
- 强化学习(Reinforcement learning,RL)讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward),来指导更好的动作,从而获得最大的收益(return),这被称为在交互中学习,这样的学习方法就被称作强化学习
1.2 强化学习的基本要素
动作(action):智能体作出的决策行为
智能体(agent):学习器与决策者,作出动作的主体
状态(state):智能体从环境中获得到的信息
奖励(reward):环境根据状态与智能体做出的动作产生的反馈信号,用R或r表示
回报(return):未来的累积奖励,用Ut表示从t时刻到结束时的累积奖励
策略(policy):一般用π表示,由观测到的状态根据策略决定作出动作
2.强化学习分类
2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ,基于价值的强化学习Value based RL以及Actor-Critic方法
- Policy based RL :学习一个策略函数π(a|s),无需构造价值函数,如REINFORCE算法
- *Value based RL:学习最优动作价值函数Q ∗ Q^Q∗,无需策略函数,如Q-learning,Sarsa,DQN方法
- Actor-Critic方法:一种特别的方法,上述两者的结合,Actor会基于概率作出动作,Critic会根据作出的动作打分,是一类结合了策略评估(Critic)和策略改进(Actor)的强化学习算法。它们通过同时学习一个策略函数(Actor)和一个值函数(Critic),从而可以更有效地学习到优秀的策略;A2C (Advantage Actor-Critic)、A3C (Asynchronous Advantage Actor-Critic)、DDPG (Deep Deterministic Policy Gradient)、TD3 (Twin Delayed Deep Deterministic Policy Gradient)、PPO (Proximal Policy Optimization)等算法均是Actor-Critic方法
2.2 根据理不理解所处的环境(agent有无学习环境的模型)分为model-based与model-free
- model-based:学习环境的模型,通过学习状态转移概率P ( s , s ′ ) P(s,s')P(s,s′)采取行动
- model-free:无环境的模型,通过学习价值函数V π ( s ) V_\pi(s)
热门推荐
骨骼健康光靠钙和VD还不够,这些营养看看你缺啥
跨国企业新人如何快速融入公司文化?
需求变更包括哪些内容
晚餐怎样助眠?冬季安神营养食谱揭秘
属羊适合佩戴哪些手串招财及吉祥物选择 属羊的招财手串有什么讲究
相对论与量子力学的世纪之争:大统一理论何时出现?
写给男朋友超甜的表白情话推荐,甜到心窝里
滤波频段在通信行业的应用解析
架构师如何评选职称证书
ChatGPT爆火!掌握AI大模型成职场新宠
2024年农村自建房新趋势:别墅风格成新宠
万物皆可“算”,梅花易数起卦、解卦的基本方法
公历的秘密:从古罗马到现代的计时革命
黄精的神仙吃法大揭秘!
职场中让自己“越来越有价值”的10个好习惯
羽绒服染色了怎么洗掉?最有效的方法有哪些?
用DataFocus数仓和DataSpring提升你的投资决策
诗词初学者必看:六种诗词结构技法详解
桃花位怎么找,五大方法轻松解密
海南莺歌海盐场:一片银海映蓝天
英语学习方法都有哪些(全面提高英语水平的建议)
每天睡眠时间不足 6 小时,持续一周,人体会发生什么变化
土太旺了是用水还是金
沙发一般都是几米长?你家客厅尺寸合适吗?
百度搜索:以AI创新捍卫69%市场份额
昼夜温差大?洋葱式穿衣法了解一下→
从《不要和陌生人说话》看偏执型人格的影响
从单人追剧到全家娱乐,视频会员服务瞄准多元需求持续进阶
掌握地道问候语,玩转跨文化交流
MBTI热潮下的深度思考:如何正确看待性格测试?