DeepSeek R1:群体相对策略优化(GRPO)与多阶段训练详解
DeepSeek R1:群体相对策略优化(GRPO)与多阶段训练详解
DeepSeek R1作为一款开源AI模型,在数学、编程和通用推理等领域取得了显著成果。其创新的群体相对策略优化(GRPO)技术,不仅提升了模型训练效率,还在多个领域树立了新的基准。本文将深入解析GRPO的工作原理及其在DeepSeek R1中的应用,同时介绍该模型独特的多阶段训练流程。
群体相对策略优化(GRPO)详解
群体相对策略优化(GRPO)是推动DeepSeek R1具备卓越推理能力的核心创新点。这一强化学习算法最早在DeepSeekMath论文中提出,通过重新设计奖励分配和优化方式,提升了模型训练的效率。GRPO取代了传统方法(如PPO,即近端策略优化),为大语言模型提供了一种更简单、高效的优化策略。
GRPO的关键特性
- 无价值函数模型:与PPO不同,GRPO不需要单独的价值函数模型,从而简化了训练流程,降低了内存消耗,提高了训练效率。
- 基于群体的优势计算:GRPO针对每个输入生成一组输出,并将该组的平均得分作为基准奖励。这种群体化的方法使奖励模型训练更加稳定,特别适用于推理任务。
- 直接优化KL散度:PPO将KL散度作为奖励信号的一部分,而GRPO则直接将KL散度整合进损失函数,从而在优化过程中提供更精细的控制。
GRPO的工作流程
- 采样(Sampling):模型使用当前策略为每个提示生成多个输出。
- 奖励评分(Reward Scoring):使用奖励函数对每个输出进行评分,评分方式可以基于规则(如格式或准确性)或基于结果(如数学或编程任务的正确性)。
- 优势计算(Advantage Calculation):群体的平均奖励作为基准,每个输出的相对优势基于该基准计算,并在群体内进行归一化。
- 策略优化(Policy Optimisation):模型利用计算出的优势来更新策略,以最大化表现。同时,KL散度项被直接纳入损失函数,确保模型在探索新策略和保持稳定性之间取得平衡。
PPO与GRPO的对比
PPO(近端策略优化)与GRPO(群体相对策略优化)的核心区别在于优势估计方式和计算效率。
- PPO依赖单独的价值模型来评估策略的优势,而GRPO去除了这一依赖,改用基于群体的相对优势估计。
- 这一改进降低了内存占用和计算成本,使得GRPO在处理复杂推理任务时更加高效。
在上图所示的结构中:
PPO(近端策略优化)
策略模型(Policy Model)针对输入q生成输出O。
独立的价值模型(Value Model)预测基准值v,并结合广义优势估计(GAE)计算优势A。
奖励r由奖励模型(Reward Model)计算,并包含基于参考模型的KL罚项。
由于额外的价值模型和KL计算,该架构导致较高的资源消耗。
GRPO(群体相对策略优化)
每个输入q生成多个输出{o_1, o_2, …, o_G},并通过奖励模型计算它们的奖励{r_1, r_2, …, r_G}。
通过群体计算对这些奖励进行归一化,计算出相对优势A_1, A_2, …, A_G,无需价值模型。
KL散度直接添加到损失函数中,使训练过程更加简单高效。
DeepSeek R1的多阶段训练
训练一个高级推理模型(如DeepSeek R1)不仅需要强大的计算能力,还需要精心设计的训练流程。为了提升模型的推理能力和连贯性,DeepSeek团队采用了一种多阶段训练方法,结合监督微调(SFT)和基于GRPO的强化学习(RL),有效克服了强化学习训练初期的不稳定性,确保模型能够在多种任务上表现出色。
第一阶段:基础模型到监督微调(SFT)
训练开始于DeepSeek V3基础模型,并使用高质量的思维链(CoT)数据进行微调。
- 数据收集:
- 由R1-zero模型和人工标注生成最长10K tokens的推理补全(CoT)。
- 训练重点:
- 提高模型输出的可读性、连贯性和逻辑流畅度。
- 阶段成果:
- 强化学习的稳固基础,减少后续训练中的不稳定性。
第二阶段:基于RL的推理优化
在该阶段,引入GRPO以提升模型在数学、编程和结构化问题求解方面的推理能力。
- 规则奖励(Rule-Based Rewards):
- 强调准确性(如解决编程问题、验证数学结果)。
- 设定格式化规则,确保清晰表达(如用特定标签
包围思考过程)。 - 新奖励信号(New Reward Signal):
- “语言一致性”奖励,鼓励模型在整个输出过程中保持相同语言风格。
- 阶段成果:
- 推理能力显著提升,在AIME 2024竞赛中pass@1分数提升至71.0%。
第三阶段:拒绝采样与SFT
为拓展模型能力,团队采用拒绝采样(Rejection Sampling, RS)方法,生成了大规模的合成数据集。
- 数据集构建:
- 第二阶段模型生成60万条推理相关样本。
- 额外生成20万条通用任务(如写作、角色扮演)样本。
- 数据来源:DeepSeek V3 SFT数据集,或基于思维链(CoT)重新生成。
- 训练重点:
- 扩展模型能力,使其不仅擅长推理任务,还能处理创意类和通用任务。
- 阶段成果:
- 模型在更广泛任务上的通用性和连贯性增强。
第四阶段:基于RL的“有帮助性”优化
最后,GRPO训练的重点从推理能力扩展到有帮助性(helpfulness)和无害性(harmlessness)。
- 奖励模型的结合(Combination of Reward Models):
- 规则奖励:确保推理能力和准确性持续提升。
- 基于结果的奖励:鼓励模型生成有帮助且安全的输出。
- 阶段成果:
- 模型在复杂推理任务中保持清晰度、安全性,并符合用户需求。
多阶段训练的核心见解
- 早期SFT稳定RL训练:
- 在强化学习前进行监督微调可减少训练不稳定性,加速收敛。
- 规则奖励机制高效:
- 简单、针对性的奖励(如准确性、格式要求)往往比复杂奖励模型更有效。
- 拒绝采样提升模型适应性:
- 通过拒绝采样生成合成数据,可以增强模型的泛化能力,适应不同任务。
通过在SFT和RL之间交替训练,DeepSeek团队成功解决了强化学习的冷启动问题及任务过拟合问题,使DeepSeek R1在推理和更广泛的应用场景中都能表现卓越。