问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度强化学习 Actor-Critic演员评论家 PPO

创作时间:

作者:

@小白创作中心

深度强化学习 Actor-Critic演员评论家 PPO

引用

CSDN

1.

https://blog.csdn.net/u013288190/article/details/139217730

Actor-Critic算法是强化学习领域中一种将策略（Policy Based）和价值（Value Based）相结合的方法，其代表性算法包括A3C、DDPG和PPO等。本文将重点介绍PPO算法，包括其模型结构、experience产生过程以及网络更新流程。

二、邻近策略优化（Proximal Policy Optimization，PPO）

邻近策略优化（Proximal Policy Optimization，PPO）算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是on-policy的强化学习算法。

算法主要思想：策略π接受状态s，输出动作概率分布，在动作概率分布中采样动作，执行动作，得到回报，跳到下一个状态。在这样的步骤下，我们可以使用策略π收集一批样本，然后使用梯度下降算法学习这些样本，但是当策略π的参数更新后，这些样本不能继续被使用，还要重新使用策略π与环境互动收集数据，真的非常耗时。因此采用重要性采样，使这些样本可以被重复使用。

1. 模型结构

PPO是基于Actor-Critic架构的，这个架构的优势是解决了连续动作空间的问题。

actor网络的输入为状态，输出为动作概率（对于离散动作空间而言）或者动作概率分布参数（对于连续动作空间而言）；
critic网络的输入为状态，输出为状态的价值。

actor网络输出的动作使优势越大越好，critic网络输出的状态价值越准确越好。

2. 产生experience的过程

已知一个状态s0，

通过 actor网络得到所有动作的概率（图中以三个动作：a,b,c为例），
然后依概率采样得到动作a0，
然后将a0输入到环境中得到s1和r1，
状态价值v(s0)通过critic网络输出得到，这样就得到一个experience: (s0,a0,r1,v(s0,logP(a0|s0))，然后将experience放入经验池中。

以上是离散动作的情况，如果是连续动作，就输出概率分布的参数（比如高斯分布的均值和方差），然后按照概率分布去采样得到动作a0。

经验池的意义是为了更方便的计算一条轨迹上状态的累积折扣回报v(st)以及优势A(st,at)，而不是消除experience的相关性。

3. 网络更新

3.1 actor网络的更新流程

优势函数A的定义为：

因为Actor网络需要输出的动作优势尽可能地大，所以它的训练需要用以下表达式作为Loss函数：

其中

反映了新旧策略差异的程度。

对于上式等价于如下形式：

A大于0表示此时策略更好，要加大优化力度。目标函数取最大，那么就会尽量取大的r值，但如果更新力度过大，新旧策略差异就会太大，即

，那么clip操作和min操作会进行限制，防止了过度优化。

PPO算法使用多步TD，因此它需要跑完一条轨迹后，才开始计算各个状态的累积回报和动作的优势。具体而言，状态价值是通过critic网络输出得到的，动作优势是通过先计算

，然后用

作为折扣因子去计算动作优势，公式如下：

3.2 Critic网络的更新流程

Actor网络更新后，接着拿从经验池buffer中采出的数据进行Critic网络的更新（数据已经计算了状态价值，折扣回报Gt的计算是基于多步TD的方法，从那个状态开始，用每一步环境返回的奖励R与折扣因子相乘后累加，即：

其中

为网络的估计值，更新方式为：计算好的折扣回报与Critic网络预测当前状态价值做差，用MSEloss作为Loss函数，对神经网络进行训练。

算法流程如下：

热门推荐

Dify使用教程（创建应用）

Dify使用教程（创建应用）

物业费平方怎么算的

物业费平方怎么算的

二氧化氯消毒剂的特点及应用二氧化氯消毒液必须现配现用吗

二氧化氯消毒剂的特点及应用二氧化氯消毒液必须现配现用吗

燕窝和花胶哪个更营养一点？营养价值更高？功效更好？

燕窝和花胶哪个更营养一点？营养价值更高？功效更好？

什么是凤凰单枞茶？怎样潮汕凤凰单枞冲泡才好喝？泡茶技巧要领

什么是凤凰单枞茶？怎样潮汕凤凰单枞冲泡才好喝？泡茶技巧要领

银行的营业时间在节假日会有调整吗？

银行的营业时间在节假日会有调整吗？

FTTR与普通千兆宽带：谁才是未来家庭网络的“主角”？

FTTR与普通千兆宽带：谁才是未来家庭网络的“主角”？

北京“五一”楼市：五环外新房带看增加，“第三套房”订购有限

北京“五一”楼市：五环外新房带看增加，“第三套房”订购有限

期刊的“综合影响因子”和“复合影响因子”你了解多少？

期刊的“综合影响因子”和“复合影响因子”你了解多少？

嘴唇发紫怎么调理变红

嘴唇发紫怎么调理变红

到2035年，中国人均谷物原粮食用消费量将降到152公斤

到2035年，中国人均谷物原粮食用消费量将降到152公斤

2024香港金融科技周揭幕：倡言金融市场负责任应用AI，政策宣言“两条腿走路”

2024香港金融科技周揭幕：倡言金融市场负责任应用AI，政策宣言“两条腿走路”

世界十大金枪鱼种类排名

世界十大金枪鱼种类排名

HS编码如何进行分类？与商品类别的关系

HS编码如何进行分类？与商品类别的关系

湍流转捩研究新进展：时空间歇性与相变理论的结合

湍流转捩研究新进展：时空间歇性与相变理论的结合

什么是电力系统自动化？

什么是电力系统自动化？

精选6画字最吉祥100个字：寓意美好的名字选择

精选6画字最吉祥100个字：寓意美好的名字选择

时空弯曲与引力：为何牛顿理论依旧不可或缺？

时空弯曲与引力：为何牛顿理论依旧不可或缺？

二手房需要签购房合同吗？签订购房合同的重要性及注意事项

二手房需要签购房合同吗？签订购房合同的重要性及注意事项

日本留学签证办理需要什么材料

日本留学签证办理需要什么材料

钉钉如何自定义协作页面布局

钉钉如何自定义协作页面布局

番泻叶喝多了有什么危害

番泻叶喝多了有什么危害

不管做什么面食，只要掌握这5种面粉与水的比例，包您次次做成功

不管做什么面食，只要掌握这5种面粉与水的比例，包您次次做成功

若水老师谈强迫症：如何应对人生当中的不确定性？

若水老师谈强迫症：如何应对人生当中的不确定性？

北京中轴线：体现中华文明突出特性的重要标识

北京中轴线：体现中华文明突出特性的重要标识

蓝花鼠尾草：特征、生长习性及园林用途

蓝花鼠尾草：特征、生长习性及园林用途

长达40年的错误？药师教你正确服用阿司匹林肠溶片！

长达40年的错误？药师教你正确服用阿司匹林肠溶片！

什么叫散光，有哪些表现

什么叫散光，有哪些表现

浙江学子怎么考浙江大学？10种方式分析，统招、三一是主流

浙江学子怎么考浙江大学？10种方式分析，统招、三一是主流

如何选择第一次约会的完美地点

如何选择第一次约会的完美地点

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号