问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek背后的GRPO技术：基于群组采样的大语言模型强化学习方法详解

创作时间:

作者:

@小白创作中心

DeepSeek背后的GRPO技术：基于群组采样的大语言模型强化学习方法详解

引用

CSDN

1.

https://blog.csdn.net/deephub/article/details/145626942

强化学习已成为提升大型语言模型推理能力的重要技术手段，特别是在需要复杂推理的任务中。DeepSeek团队开发的GRPO（Group Relative Policy Optimization）方法，通过创新性的群组采样和相对优势估计，为语言模型训练提供了更高效和稳定的解决方案。本文将深入分析GRPO的工作机制及其在语言模型训练领域的重要技术突破。

PPO 与 GRPO 的对比分析

近邻策略优化（Proximal Policy Optimization, PPO）一直是语言模型强化学习微调的主流算法。PPO的核心是一种策略梯度方法，通过裁剪机制来限制策略更新的幅度，从而防止策略发生过大的破坏性变化。PPO的目标函数可表示为：

GRPO首次在文献[2]中提出，它在PPO的基础上引入了多项关键创新，使其在语言模型训练中具有更高的效率和适用性：

无需价值网络，显著降低了内存占用和计算开销
采用群组采样方法，实现更高效且稳定的优势估计
通过强化目标函数和奖励的惩罚机制，实现更保守的策略更新

GRPO 技术深析

语言模型作为策略网络

在GRPO框架中，语言模型充当策略网络（actor），将问题q作为输入观察s，输出一系列词元（tokens）作为动作。策略分布在词元序列上进行分解：

注：原始论文[2]使用o_t表示时间步t的输出词元，而本文采用a_t以符合强化学习中动作的标准记号。

序列化词元生成

基于Transformer架构和语言模型的自回归特性，生成过程具有严格的序列性：

每个词元的生成都依赖于之前生成的词元序列
策略网络（语言模型）维护持续更新的上下文信息
每个词元生成步骤都可视为强化学习框架中的一个动作a_t

奖励计算与优势估计

GRPO对每个生成序列中的词元奖励计算如下：

GRPO摒弃了传统的价值网络，转而通过对参考策略产生的多个输出样本进行群组奖励归一化来估计基线优势值A。这些输出样本都是针对同一输入问题生成的：

优势估计的详细步骤：

群组采样：对于每个问题，使用旧策略生成多个不同的输出序列。
奖励计算：计算每个输出序列的累积奖励。
奖励归一化：对群组内的奖励进行归一化处理，例如减去均值并除以标准差。
优势估计：使用归一化后的奖励作为优势函数的估计值。

GRPO 目标函数

对于每个问题 𝑞，GRPO 从旧策略 𝜋𝜃𝑜𝑙𝑑 中采样一组输出 {𝑜1, 𝑜2, · · · , 𝑜𝐺}，然后通过最大化 GRPO 目标函数来优化策略模型。完整的 GRPO 目标函数综合了以下要素：

该目标函数的特点：

同时在群组和序列长度维度上进行平均
使用裁剪机制确保策略更新的保守性
引入 KL 散度估计作为惩罚项，防止策略与参考模型产生过大偏离

目标函数的详细解释：

第一项：策略梯度项，鼓励模型生成更高奖励的动作序列。
第二项：裁剪项，限制策略更新的幅度，防止策略崩溃。
第三项：KL 散度惩罚项，防止新策略与旧策略偏离过大，保证训练的稳定性。

GRPO 的优势与局限性

优势：

高效性：无需价值网络，降低了计算和内存开销。
稳定性：群组采样和 KL 散度惩罚提高了训练的稳定性。
适用性：特别适用于大规模语言模型的微调。

局限性：

对参考策略的依赖：GRPO 的性能受到参考策略质量的影响。
超参数敏感：目标函数中的超参数（如裁剪范围和 KL 散度系数）需要仔细调整。
理论分析的缺乏：相比于 PPO，GRPO 的理论分析还不够完善。

实际应用案例

DeepSeek-Math 和 DeepSeek-R1 是 GRPO 在实际应用中的成功案例。这些模型在数学推理和问题解决能力方面取得了显著的提升，证明了 GRPO 在增强语言模型推理能力方面的有效性。

DeepSeek-Math:通过 GRPO 训练，DeepSeek-Math 在数学问题解决能力上超越了许多其他大型语言模型。

DeepSeek-R1:DeepSeek-R1 利用 GRPO 提高了在复杂推理任务中的表现，例如阅读理解和逻辑推理。

总结

GRPO 在将强化学习应用于语言模型方面取得了重要突破。通过取消价值网络依赖并引入群组相对优势估计，该方法实现了更高效和稳定的训练过程。DeepSeek-Math 和 DeepSeek-R1 的成功实践充分验证了这种方法的实际效果。

GRPO 的核心创新——群组采样、相对优势估计以及价值网络的简化——为语言模型训练的未来发展提供了重要的技术参考。随着语言模型能力边界的不断拓展，GRPO 等创新技术将在充分发挥语言模型潜力方面发挥关键作用。未来的研究方向包括：

改进优势估计方法：探索更精确和高效的优势估计方法。
自适应超参数调整：开发自动调整 GRPO 超参数的算法。
理论分析：加强对 GRPO 算法的理论分析，理解其收敛性和泛化能力。

参考文献

[1] Schulman, John, et al. Proximal Policy Optimization Algorithms. arXiv:1707.06347

[2] Shao, Zhihong, et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300

[3] DeepSeek-AI, et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948

热门推荐

战锤新品预览：圣血天使军团套装与安格玛扩展包重磅发布

战锤新品预览：圣血天使军团套装与安格玛扩展包重磅发布

小米（谷子）的祖先是狗尾巴草？科学家已经证实了

小米（谷子）的祖先是狗尾巴草？科学家已经证实了

三维一体近视管理｜孩子查出散光怎么办？医生提醒：这几件事家长一定要放心上！

三维一体近视管理｜孩子查出散光怎么办？医生提醒：这几件事家长一定要放心上！

不要小看新冠引发的头痛

不要小看新冠引发的头痛

农村信用社个人消费贷款申请指南

农村信用社个人消费贷款申请指南

什么是电动车速性能？从加速到续航的全面解析

什么是电动车速性能？从加速到续航的全面解析

孕妇如何按摩肚子

孕妇如何按摩肚子

文汇·观众席｜《初步举证》：完美的女律师和不完美的女受害人

文汇·观众席｜《初步举证》：完美的女律师和不完美的女受害人

机体内唯一降低血糖的激素

机体内唯一降低血糖的激素

股市风向标 | 放量大跌第二天怎么走

股市风向标 | 放量大跌第二天怎么走

网上办理个体工商户营业执照指南

网上办理个体工商户营业执照指南

沙漠旅游文化特色

沙漠旅游文化特色

如何安排孕期检查时间

如何安排孕期检查时间

上海南站要通高铁了！周边交通组织优化完善，试运行首日记者实地探访

上海南站要通高铁了！周边交通组织优化完善，试运行首日记者实地探访

2024年“新血压标准”公布，不再是120/80mmHg，建议了解清楚

2024年“新血压标准”公布，不再是120/80mmHg，建议了解清楚

AI Agent，普通人可以参与AI落地最好的出路

AI Agent，普通人可以参与AI落地最好的出路

什么时候辞职最好：劳动法视角下的最佳时机与策略

什么时候辞职最好：劳动法视角下的最佳时机与策略

甲流和乙流的症状区别哪个更严重

甲流和乙流的症状区别哪个更严重

里程碑！全球首次，RNA编辑疗法获临床概念验证

里程碑！全球首次，RNA编辑疗法获临床概念验证

保护颈椎的五大方法

保护颈椎的五大方法

SSD NVMe固态硬盘数据恢复指南：原理、方法与注意事项

SSD NVMe固态硬盘数据恢复指南：原理、方法与注意事项

深海迷航利维坦简介介绍

深海迷航利维坦简介介绍

中国12年义务教育：现实与未来

中国12年义务教育：现实与未来

艾灸的操作流程

艾灸的操作流程

在单个工作簿中创建并保存所有宏

在单个工作簿中创建并保存所有宏

甲流乙流症状要几天才能查出来?怎么办

甲流乙流症状要几天才能查出来?怎么办

财经猎豹｜上门做奶茶，奶茶界又开始“卷”服务了？

财经猎豹｜上门做奶茶，奶茶界又开始“卷”服务了？

汉语拼音入门：从基础到实践的全面解析

汉语拼音入门：从基础到实践的全面解析

个人所得税专项扣除的六大项目及标准详解

个人所得税专项扣除的六大项目及标准详解

我应该在剃须前还是剃须后洗脸？

我应该在剃须前还是剃须后洗脸？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号