DeepSeek-R1核心强化学习算法GRPO详解
创作时间:
作者:
@小白创作中心
DeepSeek-R1核心强化学习算法GRPO详解
引用
CSDN
1.
https://m.blog.csdn.net/weixin_52326703/article/details/145512462
1. GRPO算法概述
背景与动机:传统PPO算法在大规模语言模型(LLM)微调中面临计算开销大、策略更新不稳定等问题。GRPO旨在减少对价值网络的依赖,提高训练效率和稳定性。
核心思想:通过组内相对奖励优化策略模型,而不是依赖传统的批评模型(critic model)。GRPO通过采样一组动作并比较它们的相对表现来调整策略,避免了维护价值网络的开销。
2. GRPO算法原理
采样动作组:从当前策略中采样一组动作。
奖励评估:对每个动作进行奖励评估。
计算相对优势:通过归一化奖励值计算相对优势。
策略更新:根据相对优势更新策略模型的参数,并引入KL散度约束以防止策略更新过于剧烈。
3. GRPO与PPO对比
价值网络的使用:
- PPO依赖价值网络,GRPO则完全摒弃价值网络。
- 奖励计算方式:PPO使用广义优势估计(GAE),GRPO通过组内相对奖励计算优势。
- 策略更新机制:PPO通过裁剪概率比,GRPO通过KL散度约束。
- 计算效率:GRPO显著提高计算效率,降低内存占用。
算法结构
价值网络的使用:
- PPO:依赖于一个与策略模型大小相当的价值网络来估计优势函数,需要在每个时间步对状态进行评估,计算复杂度高,内存占用大。
- GRPO:完全摒弃了价值网络,通过组内相对奖励来估计优势函数,比较同一状态下的多个动作的奖励值来计算相对优势,显著减少了计算和存储需求。
奖励计算方式:
- PPO:使用广义优势估计(GAE)来计算优势函数,需要对每个动作的即时奖励和未来奖励的折扣总和进行估计。
- GRPO:通过采样一组动作并计算它们的奖励值,然后对这些奖励值进行归一化处理,得到相对优势,更直接,减少了对复杂奖励模型的依赖。
策略更新机制:
- PPO:通过裁剪概率比(clip operation)来限制策略更新的幅度,确保策略分布的变化在可控范围内。
- GRPO:引入了KL散度约束,直接在损失函数中加入KL散度项,从而更精细地控制策略更新的幅度。
计算效率:
- PPO:由于需要维护和更新价值网络,计算效率较低,尤其是在大规模语言模型中,训练过程可能变得非常缓慢。
- GRPO:通过避免价值网络的使用,显著提高了计算效率,降低了内存占用,更适合大规模语言模型的微调。
优势与局限性
PPO的优势:
- 稳定性:通过裁剪概率比,能够有效防止策略更新过于剧烈,从而保持训练过程的稳定性。
- 广泛适用性:在多种强化学习任务中表现出色,适用于多种类型的环境和任务。
PPO的局限性:
- 计算负担:在大规模语言模型中,需要维护一个与策略模型大小相当的价值网络,导致显著的内存占用和计算代价。
- 更新方差:策略更新依赖于单个动作的奖励值,可能导致较高的方差,影响训练的稳定性。
GRPO的优势:
- 计算效率:通过避免价值网络的使用,显著降低了计算和存储需求,提高了训练效率。
- 稳定性:通过组内相对奖励的计算,减少了策略更新的方差,确保了更稳定的学习过程。
- 可控性:引入了KL散度约束,能够更精细地控制策略更新的幅度,保持策略分布的稳定性。
GRPO的局限性:
- 采样成本:需要对每个状态采样一组动作,这在某些情况下可能会增加采样成本。
- 适用范围:在某些任务中可能不如PPO表现稳定,尤其是在奖励信号稀疏的情况下。
实验表现
- 收敛速度:GRPO由于没有Value网络,收敛速度非常快,但结果可能不稳定;PPO由于有Value网络,收敛过程虽然有点慢但很稳定,最终效果也比较好。
- 适用场景:对于整个系统中间过程和信息比较清晰的问题,如控制系统,PPO出效果更好;对于像数学推理这种中间过程没法很好描述和计算中间过程价值的任务,GRPO更快更方便。
5. GRPO在DeepSeek-R1中的应用
训练流程:包括监督微调(SFT)、强化学习(RL)阶段、拒绝采样(RS)阶段和最终强化学习阶段。
实验结果:GRPO显著提升了DeepSeek-R1模型在数学推理和代码生成任务中的性能,同时提高了训练效率。
6. GRPO与OpenAI RLHF对比
算法原理:GRPO通过组内相对奖励机制估计优势函数,RLHF基于人类反馈优化模型输出。
训练效率:GRPO简化训练流程,RLHF训练过程复杂。
策略更新稳定性:GRPO策略更新稳定,RLHF依赖奖励模型准确性。
应用场景:GRPO适用于需要推理能力的任务,RLHF适用于优化模型输出以符合人类偏好的任务。
资源需求:GRPO资源需求低,RLHF资源需求高。
模型性能:GRPO在特定任务上性能优异,RLHF在通用应用中性能出色。
热门推荐
成都名小吃:夫妻肺片与钵钵鸡的前世今生
成都名小吃:从街头美食到世界文化遗产
香菇木耳:老年人的健康食材之选
台山游玩攻略:一日游的绝佳景点推荐
京津冀科普大赛教你安全吃菇:从识别到食用全攻略
昆明美食探秘:前十名必尝佳肴,让你品味春城的独特风味
适合学生的英文励志电影推荐:励志电影中的成长与启迪
昆明值得去的五个地方,你去过哪几个?
昆明周边旅游攻略:石林、滇池等景点详解及三日游行程规划
道宝河村:石头王国里的乡村旅游新探索
湖南美食大挑战:你敢尝几道?
《湖湘一万年》:揭秘湖南古稻田遗址与文明起源
“微信文字讨好症”:如何在虚拟世界里保持真诚?
深入解析“犯太岁”的文化意义与人们的应对方式
天津早点,不仅仅是美食,更是舌尖上的记忆
武汉热干面的制作与起源
“深入解析‘犯太岁’的文化意义与人们的应对方式”
西红柿炖牛腩的完美烹饪指南:简单易学,美味可口
70岁司机年审攻略:定期体检保平安
驾照新规:70岁也能开车啦!
资深老司机教你省心养车妙招
重阳节特辑:老年司机年审保障出行安全
汪峰官宣新恋情引热议:与章子怡离婚不到七个月,网友质疑“无缝衔接”
从汪峰章子怡离婚看现代人婚姻观:结婚率创新低背后
《四季有味》:一本让你轻松搞定年夜饭的美食指南
抖音“春节不打烊”:小商家如何借力营销实现业绩突破?
埃及沙姆沙伊赫:全年最佳旅行指南
冬季潜水天堂:埃及沙姆沙伊赫
古代的金融创新:柜坊与飞钱
健康饮食西兰花鸡肉