问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek R1:群体相对策略优化(GRPO)与多阶段训练详解

创作时间:
作者:
@小白创作中心

DeepSeek R1:群体相对策略优化(GRPO)与多阶段训练详解

引用
CSDN
1.
https://m.blog.csdn.net/m0_59235945/article/details/145650811

DeepSeek R1作为一款开源AI模型,在数学、编程和通用推理等领域取得了显著成果。其创新的群体相对策略优化(GRPO)技术,不仅提升了模型训练效率,还在多个领域树立了新的基准。本文将深入解析GRPO的工作原理及其在DeepSeek R1中的应用,同时介绍该模型独特的多阶段训练流程。

群体相对策略优化(GRPO)详解

群体相对策略优化(GRPO)是推动DeepSeek R1具备卓越推理能力的核心创新点。这一强化学习算法最早在DeepSeekMath论文中提出,通过重新设计奖励分配和优化方式,提升了模型训练的效率。GRPO取代了传统方法(如PPO,即近端策略优化),为大语言模型提供了一种更简单、高效的优化策略。

GRPO的关键特性

  • 无价值函数模型:与PPO不同,GRPO不需要单独的价值函数模型,从而简化了训练流程,降低了内存消耗,提高了训练效率。
  • 基于群体的优势计算:GRPO针对每个输入生成一组输出,并将该组的平均得分作为基准奖励。这种群体化的方法使奖励模型训练更加稳定,特别适用于推理任务。
  • 直接优化KL散度:PPO将KL散度作为奖励信号的一部分,而GRPO则直接将KL散度整合进损失函数,从而在优化过程中提供更精细的控制。

GRPO的工作流程

  1. 采样(Sampling):模型使用当前策略为每个提示生成多个输出。
  2. 奖励评分(Reward Scoring):使用奖励函数对每个输出进行评分,评分方式可以基于规则(如格式或准确性)或基于结果(如数学或编程任务的正确性)。
  3. 优势计算(Advantage Calculation):群体的平均奖励作为基准,每个输出的相对优势基于该基准计算,并在群体内进行归一化。
  4. 策略优化(Policy Optimisation):模型利用计算出的优势来更新策略,以最大化表现。同时,KL散度项被直接纳入损失函数,确保模型在探索新策略和保持稳定性之间取得平衡。

PPO与GRPO的对比

PPO(近端策略优化)与GRPO(群体相对策略优化)的核心区别在于优势估计方式和计算效率。

  • PPO依赖单独的价值模型来评估策略的优势,而GRPO去除了这一依赖,改用基于群体的相对优势估计。
  • 这一改进降低了内存占用和计算成本,使得GRPO在处理复杂推理任务时更加高效。

在上图所示的结构中:

  • PPO(近端策略优化)

  • 策略模型(Policy Model)针对输入q生成输出O。

  • 独立的价值模型(Value Model)预测基准值v,并结合广义优势估计(GAE)计算优势A。

  • 奖励r由奖励模型(Reward Model)计算,并包含基于参考模型的KL罚项。

  • 由于额外的价值模型和KL计算,该架构导致较高的资源消耗。

  • GRPO(群体相对策略优化)

  • 每个输入q生成多个输出{o_1, o_2, …, o_G},并通过奖励模型计算它们的奖励{r_1, r_2, …, r_G}。

  • 通过群体计算对这些奖励进行归一化,计算出相对优势A_1, A_2, …, A_G,无需价值模型。

  • KL散度直接添加到损失函数中,使训练过程更加简单高效。

DeepSeek R1的多阶段训练

训练一个高级推理模型(如DeepSeek R1)不仅需要强大的计算能力,还需要精心设计的训练流程。为了提升模型的推理能力和连贯性,DeepSeek团队采用了一种多阶段训练方法,结合监督微调(SFT)和基于GRPO的强化学习(RL),有效克服了强化学习训练初期的不稳定性,确保模型能够在多种任务上表现出色。

第一阶段:基础模型到监督微调(SFT)

训练开始于DeepSeek V3基础模型,并使用高质量的思维链(CoT)数据进行微调。

  • 数据收集:
  • 由R1-zero模型和人工标注生成最长10K tokens的推理补全(CoT)。
  • 训练重点:
  • 提高模型输出的可读性、连贯性和逻辑流畅度。
  • 阶段成果:
  • 强化学习的稳固基础,减少后续训练中的不稳定性。

第二阶段:基于RL的推理优化

在该阶段,引入GRPO以提升模型在数学、编程和结构化问题求解方面的推理能力。

  • 规则奖励(Rule-Based Rewards):
  • 强调准确性(如解决编程问题、验证数学结果)。
  • 设定格式化规则,确保清晰表达(如用特定标签包围思考过程)。
  • 新奖励信号(New Reward Signal):
  • “语言一致性”奖励,鼓励模型在整个输出过程中保持相同语言风格。
  • 阶段成果:
  • 推理能力显著提升,在AIME 2024竞赛中pass@1分数提升至71.0%。

第三阶段:拒绝采样与SFT

为拓展模型能力,团队采用拒绝采样(Rejection Sampling, RS)方法,生成了大规模的合成数据集。

  • 数据集构建:
  • 第二阶段模型生成60万条推理相关样本。
  • 额外生成20万条通用任务(如写作、角色扮演)样本。
  • 数据来源:DeepSeek V3 SFT数据集,或基于思维链(CoT)重新生成。
  • 训练重点:
  • 扩展模型能力,使其不仅擅长推理任务,还能处理创意类和通用任务。
  • 阶段成果:
  • 模型在更广泛任务上的通用性和连贯性增强。

第四阶段:基于RL的“有帮助性”优化

最后,GRPO训练的重点从推理能力扩展到有帮助性(helpfulness)和无害性(harmlessness)。

  • 奖励模型的结合(Combination of Reward Models):
  • 规则奖励:确保推理能力和准确性持续提升。
  • 基于结果的奖励:鼓励模型生成有帮助且安全的输出。
  • 阶段成果:
  • 模型在复杂推理任务中保持清晰度、安全性,并符合用户需求。

多阶段训练的核心见解

  1. 早期SFT稳定RL训练:
  • 在强化学习前进行监督微调可减少训练不稳定性,加速收敛。
  1. 规则奖励机制高效:
  • 简单、针对性的奖励(如准确性、格式要求)往往比复杂奖励模型更有效。
  1. 拒绝采样提升模型适应性:
  • 通过拒绝采样生成合成数据,可以增强模型的泛化能力,适应不同任务。

通过在SFT和RL之间交替训练,DeepSeek团队成功解决了强化学习的冷启动问题及任务过拟合问题,使DeepSeek R1在推理和更广泛的应用场景中都能表现卓越。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号