问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

强化学习(Reinforcement learning)

创作时间:
作者:
@小白创作中心

强化学习(Reinforcement learning)

引用
CSDN
1.
https://m.blog.csdn.net/weixin_41202834/article/details/141100560

强化学习是机器学习领域的一个重要分支,它通过智能体与环境的交互来学习最优策略。本文将从基础概念出发,详细讲解强化学习的核心元素、算法分类及其具体实现方法,帮助读者全面理解这一前沿技术。

强化学习基础概念

强化学习是除了监督学习和无监督学习之外的另一种机器学习方法。

  • 监督学习:是从标记好的训练数据中学习模型。
  • 无监督学习:是从未标记的数据中发现模式、结构或关系,而无需提前知道预期的输出标签。
  • 强化学习:其重点是让智能体(agent)从与环境的交互中学习,以达到最大化某种形式的累积奖励。在强化学习中,智能体采取一系列行动来实现特定目标,然后根据环境的反馈(奖励或惩罚)来调整其行为策略。

强化学习有哪些好处?

  1. 适用于复杂环境:强化学习能够处理复杂、不确定和动态的环境,其中传统的监督学习和无监督学习方法可能无法有效应对。
  2. 自动化学习:强化学习不需要大量手工标记的训练数据,而是通过与环境的交互自动学习。这使其适用于一些领域,其中标记数据难以获得,成本高昂或不实际。
  3. 针对长期目标进行优化: 强化学习本质上侧重于长期奖励最大化,因此适用于行动可带来长期后果的场景。它特别适合每一步都无法立即获得反馈的现实情况,因为它可以从延迟的奖励中学习。

强化学习基本元素

  • 智能体(Agent):智能体是强化学习系统的主体,它是进行学习和决策制定的实体。智能体可以是机器人、虚拟角色、自动驾驶汽车,或任何需要在环境中采取行动的实体。
  • 环境(Environment):环境是智能体所处的外部世界,它包括智能体与其互动的所有事物和条件。环境可以是仿真环境、现实世界、游戏环境等。智能体通过与环境互动来获取信息和奖励。
  • 状态(State):状态是描述环境的一个关键因素,它是一个包含有关环境的信息的表示。状态可以是连续的(如传感器数据)或离散的(如棋盘上的棋子位置)。智能体的目标是在不同的状态下采取行动以获得最大的奖励。
  • 动作(Action):动作是智能体可以执行的操作或决策,它们是智能体与环境互动的方式。动作可以是连续的(如控制机器人的关节运动)或离散的(如在棋盘上移动一枚棋子)。
  • 奖励(Reward):奖励是环境提供给智能体的反馈信号,用于评估智能体采取特定动作的好坏。奖励通常是一个数值,表示动作的质量或对智能体的性能产生的影响。智能体的目标是最大化长期累积的奖励。
  • 策略(Policy):策略是智能体在特定状态下选择动作的规则或函数。策略可以是确定性的,即对于每个状态都有一个确定的最佳动作,也可以是随机的,即在每个状态下选择动作的概率分布。
  • 价值函数(Value Function):价值函数用于评估状态或状态-动作对的好坏。它指示在特定状态下采取行动的长期回报期望值。有两种主要类型的价值函数:状态值函数(评估状态的好坏)和动作值函数(评估状态-动作对的好坏)。
  • 回报(Return):回报是智能体在一个时间步骤或一系列时间步骤中获得的累积奖励。强化学习的目标通常是最大化长期回报,这要求智能体能够制定长期规划。

以一个经典的游戏场景为例:

  • Agent:小鸟
  • Environment:鸟周围的环境(包括:鸟,水管,天空)
  • State:鸟目前的位置(即整幅窗口图像)
  • Action:上下移动
  • Reward:顺利过一个水管+1
  • Policy:根据前方水管空隙以及小鸟前进速度选择上移或者下移。
  • Value Function
  • 状态函数:状态可以表示小鸟的垂直位置、水管的位置、小鸟的速度等。状态值函数V(s)表示在状态s下智能体可以获得的期望回报。
  • 动作函数:动作可以表示小鸟是否跳跃或不跳跃。动作值函数Q(s, a)表示在状态s下采取动作a后,智能体可以获得的期望回报。
  • Return:最终游戏通关,或者游戏失败时获得的总分。

如果用一个神经网络来玩这个游戏,一般要这样实现:用某一时刻的游戏界面图片作为输入,输出应该执行的动作,即上下移动。这可以看成一个分类问题,但麻烦的是,要训练这样一个神经网络,我们将会需要大量的图片,而且,我们需要专业的玩家在每个时刻做出正确的动作,才能获得标签(label)。这样就太笨拙了,“人”学习一个游戏,并不需要另一个人告诉我们每种可能的游戏界面下分别做什么动作,我们需要的只是偶尔的反馈:告诉我们现在是对的,能得分,技巧我们可以自然地找到。这就是强化学习擅长的事情,利用稀疏且有延迟的标签,这就种标签就是奖励。只基于这些奖励,“人”就可以学习怎样在环境中做出适当的行为。

算法分类

强化学习的三种方法:基于价值(value-based)、基于策略(policy-based)以及上两种的结合方法。下文将会对应的找几种算法进行详细的介绍。

基于价值(value-based)

在介绍DQN之前,我们首先需要先了解下Q-learning。Q-learning 是一种基于价值的强化学习算法,用于解决马尔可夫决策过程(MDP)问题。其目标是学习一个Q函数,Q(s, a),它给出了在状态s采取动作a的预期回报。

Q-learning 的更新公式如下:

其中:

  • s 和a 是当前状态和动作。
  • r 是采取动作后的即时奖励。
  • s′ 是采取动作后的新状态。
  • α 是学习率。
  • γ 是折扣因子,表示未来奖励的重要性。

DQN

DQN实际上,总体思路还是用的Q-learning的思路,不过对于给定状态选取哪个动作所能得到的Q值,却是由一个深度神经网络来计算的了。

固定Target Q网络:Q-Learning中用来计算target和预测值的Q是同一个Q,也就是说使用了相同的神经网络。这样带来的一个问题就是,每次更新神经网络的时候,target也都会更新,这样会容易导致参数不收敛。回忆在有监督学习中,标签label都是固定的,不会随着参数的更新而改变。因此DQN在原来的Q网络的基础上又引入了一个Target Q网络,即用来计算target的网络。它和Q网络结构一样,初始的权重也一样,只是Q网络每次迭代都会更新,而target Q网络是每隔一段时间才会更新。既有2个网络,结构如下所示:

ϵ−greedy策略:其实这里涉及到了强化学习中一个非常重要的概念,叫Exploration & Exploitation,探索与利用。前者强调发掘环境中的更多信息,并不局限在已知的信息中;后者强调从已知的信息中最大化奖励。而ϵ−greedy策略兼具了探索与利用,它以ϵ的概率从所有的action中随机抽取一个,以1−ϵ的概率抽取分数最高的动作。强化学习正是因为有了探索Exploration,才会常常有一些出人意表的现象,才会更加与其他机器学习不同。

经验回放:已知一个状态St,通过Q Net得到各种动作的Q值然后用

ϵ−greedy策略选择动作at,将at输入到环境中,得到St+1和rt,将(St,at,St+1,r),存入到缓冲区,然后从缓冲区中随机抽取小批量样本进行学习,从而打破数据之间的相关性,提高学习稳定性。

工作流程:

损失函数:

仔细看这个公式其实就是利用的MSE损失函数。每次只要传入一组(s,a,r,St+1),即当前所处状态s,当前选择的动作a,做出动作a后获得的奖励r,以及做出动作a后转移到的下一状态St+1。这四个值都可以在模拟一局游戏时取到,而且每模拟一局游戏能取到非常多组数据。在论文中作者提出了经验回放(experience replay)的采集数据方法,即事先采样足够多组的数据放入一个固定容量的经验池中,然后每次训练时从该经验池中随机取出一个batch的数据进行梯度下降更新参数。值得注意的是这一个batch的数据训练完成后是放回经验池的,也就是说下次训练时是可以复用的。只有当产生新的数据时,才会更新经验池。像这样每玩几局游戏训练一次(玩游戏的同时其实是在更新训练数据),极大地提升了训练的效率。

DDQN

DDQN与DQN大部分都相同,只有一步不同,那就是在选择Q(St+1,a)的过程中,DQN总是选择Target Q网络的最大输出值。而DDQN不同,DDQN首先从Q网络中找到最大输出值的那个动作,然后再找到这个动作对应的Target Q网络的输出值。用图像表示即为:

如上图所示,根据St和at是可以确定当前的Q(St,a)值的,假设这里值为Q(St,a1)。此处根据ϵ−greedy策略筛选的,那么执行动作a1,就可以确定St+1,然后将St+1输入到Q Net中,得到各种不同的Q值。此处筛选据最大Q值对应的动作,假设这里筛选了a2。然后将St+1输入到Target Q Net中,找到a2对应的Q值Q(St+1,a2)。最后Q(St,a1)作为网络预测值,而
作为网络的实际值,接着进行一系列的反向传播。

Dueling-DQN

Dueling DQN算法提出了一种新的神经网络结构——对偶网络(duel network)。网络的输入与DQN和DDQN算法的输入一样,均为状态信息,但是输出却有所不同。如下图所示,上面是我们传统的DQN,下面是我们的Dueling DQN。在原始的DQN中,神经网络直接输出的是每种动作的 Q值, 而 Dueling DQN 每个动作的Q值,是由状态价值V和优势函数A确定的,即Q = V + A。

什么是优势函数?我们可以简单理解为,对于一个特定的状态,采取一个动作所能得到的价值与这个状态能得到的平均价值的区别。如果采取的动作得到的价值比平均价值大,那么优势函数为正,反之为负。

简单的使用Q = V + A可以么?当然不行,因为对于一个确定的Q,有无数种V和A的组合可以得到Q。因此我们需要对A进行一定的限定,通常将同一状态下的优势函数A的均值限制为0。所以,我们的Q值计算公式如下:

基于策略(policy-based)

PG

前面我们介绍的DQN及其相关变种都是基于价值的强化学习算法,在给定一个状态下,计算采取每个动作的价值,我们选择有最高Q值(在所有状态下最大的期望奖励)的行动。如果我们省略中间的步骤,即直接根据当前的状态来选择动作,也就引出了强化学习中的另一种很重要的算法,即策略梯度(Policy Gradient, PG)。

而现实生活中,很多决策的行动空间是高维甚至连续(无限)的,比如自动驾驶中,汽车下一个决策中方向盘的行动空间,就是一个从[-900°,900°](假设方向盘是两圈半打满)的无限空间中选一个值,如果我们用Q系列算法来进行学习,则需要对每一个行动都计算一次reward,那么对无限行动空间而言,哪怕是把行动空间离散化,针对每个离散行动计算一次reward的计算成本也是当前算力所吃不消的。这是对Q系列算法提出的第一个挑战:无法遍历行动空间中所有行动的reward值。

此外,现实中的决策往往是带有多阶段属性的,说白了就是:“不到最后时刻不知输赢”。以即时策略游戏(如:星际争霸,或者国内流行的王者荣耀)为例,玩家的输赢只有在最后游戏结束时才能知晓,谁也没法在游戏进行过程中笃定哪一方一定能够赢。甚至有可能发生:某个玩家的每一步行动看起来都很傻,但是最后却能够赢得比赛,比如,Dota游戏中,有的玩家虽然死了很多次,己方的塔被拆了也不管,但是却靠着偷塔取胜(虽然这种行为可能是不受欢迎的)。诸如此类的情形就对Q系列算法提出了第二个挑战,Agent每执行一个动作(action)之后的奖励(reward)难以确定,这就导致Q值无法更新。

那么,难道深度强化学习就不能处理诸如上述两类情形的问题了吗?答案当然是否定的,这就衍生出了基于PG的系列深度强化学习算法。

蒙特卡罗策略梯度reinforce算法是策略梯度最简单的也是最经典的一个算法。

其主要步骤如下:

  1. 采样完整轨迹:从当前策略中采样一条完整的轨迹(从起始状态到终止状态的状态-动作-奖励序列)。
  2. 计算回报:对于每条轨迹,计算从当前时间步到结束时间步的累计回报。
  3. 更新策略参数:使用梯度上升法,根据策略梯度定理更新策略参数。

DDPG

深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的主要网络结构为以下四个:

Actor网络输入是状态,输出是动作。Critic网络输入是状态和动作,输出是对应的Q值。Actor网络的目的是根据状态St,能够输出使得Q(St,at)值最大的动作at,这个,at越能使Q(St,at)大,说明网络训练地越好。

Critic网络的目的是根据状态动作对(St,at)能够输出其action value Q(St,at),这个Q值越精确,就说明网络训练地越好。

Actor网络和Target Actor网络的区别是,Actor网络是每步都会在经验池中更新,而Target Actor网络是隔一段时间将Actor的网络参数软拷贝(软拷贝的意思是Actor的网络参数按照一定百分比加权到Target Actor网络,即:
,其中𝜏是一个很小的数)到Target Actor网络中,实现Target Actor网络的更新。这种“滞后”更新是为了保证在训练Actor网络时训练的稳定性。Critic网络和Target Critic网络也是一样。

产生experience:

已知一个状态S0,通过actor网络得到动作a'0,然后再加噪声N得到动作a0 = a'0 + N(噪声是为了保证一定的探索),然后将a0输入到环境中,得到S1和r1,这样就得到一个experience:(S0,a0,S1,r1),然后将experience放入经验池中。

工作流程:

总结

在传统的 DQN 基础上,有两种非常容易实现的变式——Double DQN 和 Dueling DQN,Double DQN 解决了 DQN 中对Q值的过高估计,而 Dueling DQN 能够很好地学习到不同动作的差异性,在动作空间较大的环境下非常有效。基于策略的DDPG适用于连续动作空间,更适合处理高纬的状态和动作空间。

参考:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号
强化学习(Reinforcement learning)