DeepSeek R1：群体相对策略优化（GRPO）与多阶段训练详解

创作时间:

作者:

@小白创作中心

DeepSeek R1：群体相对策略优化（GRPO）与多阶段训练详解

引用

CSDN

https://m.blog.csdn.net/m0_59235945/article/details/145650811

DeepSeek R1作为一款开源AI模型，在数学、编程和通用推理等领域取得了显著成果。其创新的群体相对策略优化（GRPO）技术，不仅提升了模型训练效率，还在多个领域树立了新的基准。本文将深入解析GRPO的工作原理及其在DeepSeek R1中的应用，同时介绍该模型独特的多阶段训练流程。

群体相对策略优化（GRPO）详解

群体相对策略优化（GRPO）是推动DeepSeek R1具备卓越推理能力的核心创新点。这一强化学习算法最早在DeepSeekMath论文中提出，通过重新设计奖励分配和优化方式，提升了模型训练的效率。GRPO取代了传统方法（如PPO，即近端策略优化），为大语言模型提供了一种更简单、高效的优化策略。

GRPO的关键特性

无价值函数模型：与PPO不同，GRPO不需要单独的价值函数模型，从而简化了训练流程，降低了内存消耗，提高了训练效率。
基于群体的优势计算：GRPO针对每个输入生成一组输出，并将该组的平均得分作为基准奖励。这种群体化的方法使奖励模型训练更加稳定，特别适用于推理任务。
直接优化KL散度：PPO将KL散度作为奖励信号的一部分，而GRPO则直接将KL散度整合进损失函数，从而在优化过程中提供更精细的控制。

GRPO的工作流程

采样（Sampling）：模型使用当前策略为每个提示生成多个输出。
奖励评分（Reward Scoring）：使用奖励函数对每个输出进行评分，评分方式可以基于规则（如格式或准确性）或基于结果（如数学或编程任务的正确性）。
优势计算（Advantage Calculation）：群体的平均奖励作为基准，每个输出的相对优势基于该基准计算，并在群体内进行归一化。
策略优化（Policy Optimisation）：模型利用计算出的优势来更新策略，以最大化表现。同时，KL散度项被直接纳入损失函数，确保模型在探索新策略和保持稳定性之间取得平衡。

PPO与GRPO的对比

PPO（近端策略优化）与GRPO（群体相对策略优化）的核心区别在于优势估计方式和计算效率。

PPO依赖单独的价值模型来评估策略的优势，而GRPO去除了这一依赖，改用基于群体的相对优势估计。
这一改进降低了内存占用和计算成本，使得GRPO在处理复杂推理任务时更加高效。

在上图所示的结构中：

PPO（近端策略优化）
策略模型（Policy Model）针对输入q生成输出O。
独立的价值模型（Value Model）预测基准值v，并结合广义优势估计（GAE）计算优势A。
奖励r由奖励模型（Reward Model）计算，并包含基于参考模型的KL罚项。
由于额外的价值模型和KL计算，该架构导致较高的资源消耗。
GRPO（群体相对策略优化）
每个输入q生成多个输出{o_1, o_2, …, o_G}，并通过奖励模型计算它们的奖励{r_1, r_2, …, r_G}。
通过群体计算对这些奖励进行归一化，计算出相对优势A_1, A_2, …, A_G，无需价值模型。
KL散度直接添加到损失函数中，使训练过程更加简单高效。

DeepSeek R1的多阶段训练

训练一个高级推理模型（如DeepSeek R1）不仅需要强大的计算能力，还需要精心设计的训练流程。为了提升模型的推理能力和连贯性，DeepSeek团队采用了一种多阶段训练方法，结合监督微调（SFT）和基于GRPO的强化学习（RL），有效克服了强化学习训练初期的不稳定性，确保模型能够在多种任务上表现出色。