问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DuelingDQN:分离状态价值和动作优势

创作时间:
作者:
@小白创作中心

DuelingDQN:分离状态价值和动作优势

引用
CSDN
1.
https://blog.csdn.net/universsky2015/article/details/139078636

1. 背景介绍

1.1 深度强化学习的崛起

近年来,深度强化学习 (Deep Reinforcement Learning, DRL) 在游戏、机器人控制、资源管理等领域取得了瞩目的成就。DRL 结合了深度学习强大的表征能力和强化学习的决策能力,使得智能体能够直接从高维的感知输入中学习解决复杂的任务。

1.2 DQN 的局限性

深度 Q 网络 (Deep Q-Network, DQN) 作为 DRL 的先驱算法之一,通过学习一个深度神经网络来近似状态-动作价值函数 (Q 函数),从而指导智能体的决策。然而,传统的 DQN 存在一些局限性:

  • 难以区分状态价值和动作优势 : Q 函数同时包含了状态价值 (state value) 和动作优势 (action advantage) 信息。状态价值指的是处于某个状态的长期收益,而动作优势指的是在该状态下选择某个动作相对于其他动作的额外收益。DQN 难以将这两种信息有效地分离,导致学习效率低下。

  • 过估计问题 : DQN 容易受到过估计问题的影响,即对某些状态-动作对的价值估计过高,导致学习过程不稳定。

1.3 DuelingDQN 的提出

为了解决上述问题,DuelingDQN 算法被提出。DuelingDQN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号