DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
DeepSeek-R1近期备受关注,其核心的强化学习算法GRPO(Group Relative Policy Optimization)更是引起广泛讨论。然而,最新研究发现,对于推理模型而言,GRPO可能并非最优选择。阶跃星辰与清华大学的研究团队通过实验证明,使用带有GAE的普通PPO算法,配合简单的规则式奖励函数,不仅能够实现类似DeepSeek-R1的效果,而且训练效率大幅提升。
PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》
DeepSeek-R1的技术报告中提到,该模型采用DeepSeek-V3-Base作为基础模型,并使用GRPO作为强化学习框架来提升推理性能。经过数千个强化学习步骤后,DeepSeek-R1-Zero在推理基准上展现出卓越性能。
然而,阶跃星辰与清华大学的研究团队发现,使用带GAE(λ=1,γ=1)的普通PPO算法,以及基于规则的简单奖励函数,无需任何KL正则化,就能扩展推理任务上的响应长度和基准性能,效果类似于在DeepSeek-R1-Zero上观察到的现象。
Open-Reasoner-Zero:首个面向大规模推理的开源实现
研究团队打造了Open-Reasoner-Zero,这是首个面向大规模推理的强化学习训练开源实现。该实现仅需DeepSeek-R1-Zero-Qwen-32B约1/30的训练步数,就在GPQA Diamond基准上取得了更优表现。此外,团队还开源了代码、参数设置、训练数据和模型权重。
- 论文标题:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- 论文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
- 项目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
- Hugging Face:https://huggingface.co/Open-Reasoner-Zero
基础设置
实验中使用Qwen2.5-{7B, 32B}作为基础模型,未经任何微调即开始规模化强化学习训练。研究团队精心编排了涉及STEM、数学和推理任务的数万对问答数据,以增强模型在多样化和复杂问题求解场景中的能力。
受DeepSeek-R1启发,研究团队设计了提示词模板,以引导模型逐步掌握复杂任务的推理能力。同时,基于OpenRLHF开发了一个高效的大规模强化学习训练框架,支持GPU共置生成和训练过程中的卸载与回载。
数据集
研究团队关注数据集的数量、多样性和质量三个方面。最终构建的数据集包含57k样本,涵盖STEM、数学和推理领域。
奖励函数
与DeepSeek-R1-Zero不同,Open-Reasoner-Zero采用简单的规则式奖励函数,仅检查答案正确性,不包含额外的格式奖励。实验表明,即使是未对齐的基础模型也能快速学会正确的推理和回答格式。更重要的是,复杂的奖励函数不仅可能没有必要,还可能为奖励欺骗留下空间。
强化学习算法
研究团队采用近端策略优化(PPO)算法进行规模化训练。具体来说,对于每个问题q(即提示词),模型会生成一组响应{o_1, o_2, ..., o_n}并接收相应的奖励{r_1, r_2, ..., r_n}。使用Generalized Advantage Estimation(GAE)计算优势估计,其中GAE参数λ=1.0、折扣因子γ=1.0、clipping参数ε=0.2。
主要发现
- 原始PPO在不同模型规模和训练持续时间内能够提供非常稳定和强大的训练过程,无需额外修改。
- 简单的基于规则的奖励函数不仅足够,而且是最佳选择,因为最小设计不会留下任何潜在的奖励欺骗空间。
- 不依赖任何基于KL的正则化技术也能实现稳定训练。
- 扩大数据量和多样性对于Reasoner-Zero训练至关重要。
实验表现
Open-Reasoner-Zero在训练过程中表现出一种有趣的「阶跃时刻」现象,响应指标会在训练过程中突然增加,类似于DeepSeek-R1-Zero中的行为。值得注意的是,Open-Reasoner-Zero-32B模型仅用1/5.8的训练步数就实现了与DeepSeek-R1-Zero(671B MoE)相当的响应长度。
一个特别值得注意的现象出现在步骤 680 左右,该团队观察到三个指标同时加速:奖励、平均正确反思长度和平均响应长度。通过手动检查步骤 680 之前和之后的模型输出,该团队发现之后的响应中有更明显的反思模式。这种涌现行为值得进一步研究,该团队表示目前正在进行详细分析,以了解这种现象的潜在机制。
在知识和指令遵从基准MMLU_PRO和IFEval上,Open-Reasoner-Zero 32B模型展现出强大的泛化能力,无需额外的指令微调就在面向推理的任务上显著优于Qwen2.5 Instruct 32B。
该团队还进行了详细的消融实验,具体结果请参阅原论文。