问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

《详细解读22页DeepSeek R1技术报告(附中文全文翻译)》

创作时间:
作者:
@小白创作中心

《详细解读22页DeepSeek R1技术报告(附中文全文翻译)》

引用
搜狐
1.
https://www.sohu.com/a/856630021_121124372

在大语言模型(LLM)的发展历程中,模型的推理能力一直是最具挑战性的难题之一。如何让AI系统像人类一样进行严谨的逻辑推导?

与传统训练模式不同,DeepSeek R1采用了一条全新的路径:不再采用SFT监督微调,而是让AI通过纯强化学习(Reinforcement Learning, RL)实现自我进化。这种方法不仅打破了传统训练范式对人工标注数据的依赖,更揭示了AI系统自主学习的新可能。接下来,我们将深入剖析这一突破性技术的核心机制。

突破传统:R1-Zero的纯强化学习路线

传统LLM训练流程通常包含三个阶段:

  • 预训练(Pre-training):使用海量互联网文本数据进行自监督学习
  • 监督微调(SFT,Supervised Fine-Tuning):利用人工标注的高质量指令数据进行训练
  • 人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback):基于人类反馈进行偏好对齐

这种范式的主要瓶颈在于对高质量人工标注数据的依赖。特别是在复杂推理任务中,构建标注数据不仅耗时耗力,更面临着人工标注质量和一致性的挑战。

但是DeepSeek R1-Zero走出了一条全新的道路:

  • 改变传统训练思路:完全摒弃了SFT阶段,采用纯强化学习训练
  • 无需标注数据:摆脱了对人工标注数据的依赖
  • 自我进化机制:通过强化学习实现模型能力的持续提升

这意味着模型需要在没有任何"标准答案"指导的情况下,通过不断尝试和获取反馈来提升自己的推理能力。

具体实现上,R1-Zero采用了精心设计的训练框架:

输入输出结构设计:

  • 输入:将推理问题构建成特定格式的文本
  • 输出:强制要求模型在"think"标签中生成推理过程,在"answer"标签中给出答案

DeepSeek-R1-Zero的模板。在训练过程中,prompt将被替换为具体的推理问题,并且强制推理过程和答案的输出结构。

双重奖励机制

此外,采用上述RL的训练数据基础上,DeepSeek-R1-Zero也采用了一个不同的奖励机制:通过两类reward进行强化学习,分别是答案正确性奖励(Accuracy Reward)和格式规范奖励(Format Reward):

(1)答案正确性奖励

  • 数学问题:验证最终答案是否正确
  • 编程问题:通过测试用例验证代码正确性
  • 逻辑推理:检验结论是否符合逻辑

(2)格式规范奖励

  • 确保思维过程被正确封装在think标签中
  • 验证答案是否位于answer标签内
  • 检查整体输出结构的完整性

两类奖励确保DeepSeek-R1按照指定的格式进行内容的输出。

优化方法

R1-Zero采用了群体相对策略优化(Group Relative Policy Optimization ,GRPO)算法进行学习,节省强化学习的训练成本。具体来说,GRPO放弃了通常与策略模型大小相同的评判模型,转而从群体分数中估计基线。具体来说,对于每个问题,GRPO从旧策略中采样一组输出,然后通过最大化以下目标来优化策略模型:

通过上述的训练策略DeepSeek-R1-Zero取得了超过OpenAI-o1的效果。随着训练的进行,DeeoSeek-R1-Zero的效果也在逐渐提升。

此外,通过应用多数投票,DeepSeek-R1-Zero 的性能可以进一步增强。例如,在 AIME 基准测试中使用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 提升到 86.7%,从而超过了 OpenAI-o1-0912 的表现。

顿悟时刻:模型的自我进化

此外,模型在训练过程中也发现了在以往训练方式不曾常见到的自我进化表现:

(1)DeepSeek-R1-Zero学会了通过更多的思考时间来解决推理任务

上图横坐标是训练的步数,纵坐标则是问题的平均回答长度(实际上大部分是模型的思考过程)展示了,随着训练的进行,DeepSeek-R1-Zero学会了使用更长的思考时间去回复问题。

(2)DeepSeek-R1-Zero出现了“顿悟时刻”

在DeepSeek-R1-Zero的训练过程中,可以观察到DeepSeek-R1-Zero出现了“顿悟时刻”。

如论文中表3所展示的,模型在解决数学问题时展现出类似人类的自我反思和纠错能力:

a.最初的解题尝试:模型开始正常解题,将方程按照常规代数步骤进行推导,开始进行数学变换:(a-x²)² = a+x

b.关键的"顿悟时刻":模型突然停下来说:"Wait, wait. Wait. That's an aha moment I can flag here."这表明模型意识到可能有问题,主动暂停了当前的解题思路模型决定:"Let's reevaluate this step-by-step to identify if the correct sum can be..."

c.重新开始:模型重新列出原始方程, 并采用新的解题策略:"First, let's square both sides",更清晰地组织了解题步骤

这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它突显了强化学习的力量与美感:我们无需明确教导模型如何解决问题,只需提供适当的激励,它便能自主发展出高级的问题解决策略。这一“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新智能水平方面的潜力,为未来更加自主和自适应的模型铺平了道路。

进阶优化:DeepSeek R1的多阶段训练策略

尽管DeepSeek-R1-Zero展现出强大的推理能力,并自主发展出意想不到 且强大的推理行为,但它仍面临一些问题。例如,DeepSeek-R1-Zero在可读性差和语言混合等挑战上表现不佳。

为了解决上述问题,DeepSeek R1采用了一种多阶段的训练策略

冷启动阶段

采用few-shot提示方式,收集精选数千条高质量CoT(Chain-of-Thought)示例(也是基于DeepSeek V3),并通过人工优化确保数据质量。基于此少而精的高质量训练数据,建立初始的推理模式和语言规范,以此来缓解在训练最开始的阶段存在一些不确定性,让模型先收敛到一个符合人类偏好的初始状态,再进行后续的强化学习可以取得更好的效果。

推理导向强化学习

在SFT冷启动之后,R1采用了类似DeepSeek-R1-Zero的强化学习方式继续进行训练。但是我们知道,这样的训练方式是存在多语言混合问题,因此为了缓解这个问题,引入了语言一致性奖励:

reward = λ1 * accuracy_reward + λ2 * language_consistency_reward

这个奖励会要求生成的答案尽可能都来源于同一个语言。通过调节λ1和λ2的权重平衡效果和可读性。Deepseek的实验表明,新引入的语言一致性奖励会导致轻微的性能损失,但显著提升用户体验

拒绝采样与监督微调

为了确保模型具备全面的能力,研究团队还特意加入了200K条非推理场景的训练数据。这些数据来源于写作、事实问答、自我认知等多个领域,通过与DeepSeek-V3的原有监督数据相结合,为模型注入了更广泛的知识和能力基础。这种平衡的数据构成确保了模型在保持强大推理能力的同时,也能很好地处理日常对话和通用任务。

全场景强化学习

在最后的训练阶段,团队采用了更全面的强化学习策略。这个阶段的特点是将推理能力的提升与人类偏好的对齐有机结合。在推理相关场景中,模型继续沿用R1-Zero的训练方法,通过规则奖励来指导数学、代码和逻辑推理能力的提升。而在处理通用场景时,团队引入了专门的偏好模型来评估模型输出的质量。

经过上述的迭代式训练,得到了最终DeepSeek-R1模型,并且从结果上看,取得了与OpenAI-o1-1217 相当的性能,同时远超其他模型。

模型蒸馏:Deepseek的能力也能传递到其他模型

除了训练得到DeepSeek-R1外,DeepSeek也进一步验证了该策略进行模型蒸馏的有效性。通过利用DeepSeek R1生成的800K高质量训练样本,团队成功地将这些先进的推理能力转移到了其他规模较小的模型中。这些训练样本来源于DeepSeek R1的第三阶段训练过程,包含了丰富的推理过程和最终答案,涵盖了从基础到高阶的各类推理场景。

在具体实施过程中,研究团队选择了一种简单而直接的方法:直接使用这些数据对目标模型进行微调,而不是重复复杂的强化学习过程。这种方法不仅大大降低了训练成本,还保证了训练过程的稳定性和可控性。实验结果表明:经过微调的Qwen-7B模型在AIME测试中达到了55.5%的准确率,超越了参数量大得多的QwQ-32B模型;而32B参数规模的模型更是达到了72.6%的AIME准确率,在MATH-500上取得了94.3%的高分,这些成绩都接近于OpenAI的o1-mini水平。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号
《详细解读22页DeepSeek R1技术报告(附中文全文翻译)》