强化学习基础教程：基本概念、定义、要素及方法分类

创作时间:

作者:

@小白创作中心

强化学习基础教程：基本概念、定义、要素及方法分类

引用

CSDN

https://blog.csdn.net/Ever_____/article/details/133362585

强化学习基础教程：基本概念、强化学习的定义，要素，方法分类以及 Rollout、episode回合、transition转移、trajectory轨迹的概念

1.基础概念

1.1 强化学习的定义

实现序贯决策的机器学习方法—强化学习（reinforcement learning）
强化学习定义：机器通过与环境进行交互，不断尝试，从错误中学习，做出正确决策从而实现目标的方法。
强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指，机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器，交互是迭代进行
在每一轮交互中，智能体感知到环境目前所处的状态，经过自身的计算给出本轮的动作，将其作用到环境中；环境得到智能体的动作后，产生相应的即时奖励（注意是即时奖励）信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态，依次类推。
强化学习（Reinforcement learning，RL）讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward)，来指导更好的动作，从而获得最大的收益(return)，这被称为在交互中学习，这样的学习方法就被称作强化学习

1.2 强化学习的基本要素

动作（action）：智能体作出的决策行为
智能体（agent）：学习器与决策者，作出动作的主体
状态（state）：智能体从环境中获得到的信息
奖励（reward）：环境根据状态与智能体做出的动作产生的反馈信号，用R或r表示
回报（return）：未来的累积奖励，用Ut表示从t时刻到结束时的累积奖励
策略（policy）：一般用π表示，由观测到的状态根据策略决定作出动作

2.强化学习分类

2.1 根据agent学习方式分为基于策略的强化学习Policy based RL ，基于价值的强化学习Value based RL以及Actor-Critic方法

Policy based RL ：学习一个策略函数π(a|s)，无需构造价值函数，如REINFORCE算法
*Value based RL：学习最优动作价值函数Q ∗ Q^Q∗，无需策略函数，如Q-learning，Sarsa，DQN方法
Actor-Critic方法：一种特别的方法，上述两者的结合，Actor会基于概率作出动作，Critic会根据作出的动作打分，是一类结合了策略评估（Critic）和策略改进（Actor）的强化学习算法。它们通过同时学习一个策略函数（Actor）和一个值函数（Critic），从而可以更有效地学习到优秀的策略；A2C (Advantage Actor-Critic)、A3C (Asynchronous Advantage Actor-Critic)、DDPG (Deep Deterministic Policy Gradient)、TD3 (Twin Delayed Deep Deterministic Policy Gradient)、PPO (Proximal Policy Optimization)等算法均是Actor-Critic方法