深度确定性策略梯度(DDPG)算法 总结
创作时间:
作者:
@小白创作中心
深度确定性策略梯度(DDPG)算法 总结
引用
CSDN
1.
https://blog.csdn.net/qq_58872188/article/details/144324905
深度确定性策略梯度(DDPG)算法是强化学习领域的重要算法之一,主要用于处理连续动作空间问题。它通过结合演员-评论家框架、双重神经网络架构和经验回放机制,实现了对确定性策略的优化。本文将详细介绍DDPG算法的核心原理和关键组件。
深度确定性策略梯度(DDPG)
确定性策略梯度算法:用于强化学习的算法,它旨在🌟通过梯度下降优化一个确定性的策略,而非随机策略。即给定一个状态,策略网络(Actor)会输出一个确定的动作,而不是一个概率分布。
- 随机策略:策略给出每个动作的概率分布。例如,策略可能会在某个状态下以一定的概率选择不同的动作。
- 确定性策略:策略直接给出每个状态下要采取的具体动作,而不是动作的概率分布。
确定性策略梯度算法的目标:优化一个函数,该函数直接给出每个状态下的动作,而不是对动作进行采样。
💡:DDPG中演员网络(策略网络)就是通过评论家网络所输出的奖励Q值梯度来进行更新的。
基本架构:演员-评论家(Actor-Critic)
- 核心思想:将策略优化和价值估计分开,以便更有效地训练代理。
- 演员-评论家作为一种强化学习算法的框架,广泛用于处理连续动作空间问题。
- 演员(Actor):
- 任务:学习一个策略。决定在每个状态下应该采取什么动作。(对于DDPG,通常是一个连续的动作)。
- 更新方式:通过策略梯度(Policy Gradient)更新自己的策略,目的是使得所选动作最大化累积奖励。
- 评论家(Critic):
- 任务:评估演员做出的动作好不好,给演员提供反馈来帮助改进策略。评论家网络计算价值函数,通常是动作值函数Q(s, a),即给定一个状态和动作的情况下,未来的奖励的期望值。
- 更新方式:TD(Temporal Difference)误差来更新其估计的值函数,以帮助 Actor 评估选择的动作是否有效。
双重神经网络架构:策略函数(Actor)和价值函数(Critic)均使用双重神经网络模型架构(类似于Double DQN)
- 优势:学习过程更加稳定,收敛的速度加快,解决“高估”传播问题。
经验回放机制:Actor 与环境交互生产生的经验数据样本存储到经验池中,抽取批量数据样本进行训练,即类似于 DQN 的经验回放机制。
- 优势:去除样本的相关性和依赖性,使得算法更加容易收敛。
算法流程:
- 初始化:初始化演员网络(Actor Network)、评论家网络(Critic Network)以及它们对应的目标网络和经验回收池。
- 智能体与环境交互:
- 选择动作:根据当前状态 st,演员网络输出一个连续的动作 at。为了提高探索性,DDPG通常在选择动作时加入噪声,从而避免过早收敛到局部最优解,平衡探索与利用。
- 环境反馈:智能体执行动作 at 后,环境返回新的状态st+1 和相应的奖励rt。
- 存储经验:存储当前的经历(st,at,rt,st+1) 到经验回放缓冲区中。
- 经验回放:DDPG会从缓冲区中随机抽取一个小批次的经历{(st,at,rt,st+1)},用来更新网络。
- 🌟更新评论家网络:
- (🤔评论家网络和DQN网络相似,都用于评估当前状态-动作对的价值)
- 目标Q值:
- 损失函数:(均方误差MSE)(E 等同于 1/n∑)
- 🌟更新演员网络:
- 目标是通过最大化Q值来优化策略,使得智能体选择的动作能够带来尽可能高的回报。
- 通过策略梯度的思想,演员网络的更新梯度为:
期望奖励 J(θ)策略参数 θ
(对J(θ)求 θ 的导,遵循求导链式法则) - 目标网络更新:目标网络是演员和评论家网络的副本,并且更新速度较慢。
- 重复训练
DDPG算法为代码:
热门推荐
宁蒗至香格里拉高速公路建设最新进展与规划全解析
标准化心理测验的技术指标包括哪些内容?
如何探讨利率与黄金价值的关联?这种关联对投资决策有何意义?
晚上喝椰子水会胖吗? 晚上喝椰子水的真相解读
喝椰子水会发胖吗? 探究椰子水的热量与健康益处
电大中专申请毕业的条件有哪些?
甲状腺穿刺操作指南:从术前准备到术后观察
如何正确识别鲜炖燕窝的保质期限与存储方法
万万没想到,没吃对也老得快!学会这样吃,帮你减龄抗衰老!
国民轿车新选择:朗逸新锐 vs 宝来传奇,如何做出明智选择?
六大维度解析铂金与黄金的区别
关于机动车免检那些事,详解政策要点与办理流程
血液冷藏箱:生命之液的安全守护者
双羽馆解体妄想:将"解体"玩法推向极致的剧本杀
机器人电路板课程内容大揭秘
痘印淡化最好的方法是
2年培育61家科企,重庆这个孵化器做对了什么?
减肥可以吃西梅吗
“分清楚事实和观点”是逻辑的基础,更是家庭和社会进步的源泉
多所高校公布“复试线”,原来校线和国家线不一样,考生务必了解
董明珠吃了雷军的「醋」?
人形机器人未来将如何突破?专家:研发面临三大关键技术及6个主要挑战
电脑软件打不开无响应怎么办 学会这几点轻松解决
可燃气体探测器安装规范推荐
不同年龄的男性,一分钟做多少个俯卧撑算合格?
俯卧撑个数,反映你的健康素质,你能一次性做几个?
爬坡运动的健身价值与三种实用替代训练方法
如何判断看跌买入的时机?这种看跌买入的依据是什么?
德国留学费用一览表
留学德国的费用及必备物品清单