DeepSeek-R1模型训练详解:从零样本推理到可读性优化
DeepSeek-R1模型训练详解:从零样本推理到可读性优化
DeepSeek-R1是DeepSeek系列模型的重要迭代版本,通过强化学习和精细调优,显著提升了模型的推理能力和可读性。本文将详细介绍DeepSeek-R1的训练过程、技术细节及其与DeepSeek-R1-Zero的主要区别。
DeepSeek-R1-Zero:从基础到强大的零样本推理能力
DeepSeek-R1-Zero是DeepSeek系列模型的重要迭代版本,它直接基于DeepSeek-V3-Base进行强化学习(RL)训练。经过数千步的训练,DeepSeek-R1-Zero展现出了强大的性能和惊人的推理能力。在AIME 2024评测中,其pass@1分数从15.6%大幅提升至71.0%,通过多数投票机制,分数甚至可以进一步提升至86.7%,与OpenAI-o1-0912的水平相当。
DeepSeek-R1-Zero的训练方法
DeepSeek-R1-Zero的训练采用了多种创新技术:
- Group Relative Policy Optimization (GRPO):通过组得分代替critic model,显著降低了RL训练成本。
- 基于规则的奖励机制:包括准确性奖励和格式奖励。准确性奖励针对有明确答案的数学问题或可通过执行测试验证的问题;格式奖励则强制模型将思考过程放在特定标签之间。
- 结构化训练模板:采用图示的简单模板,要求模型先生成推理过程,再给出最终答案,避免了内容偏见。
DeepSeek-R1-Zero的训练发现
随着训练步数的增加,DeepSeek-R1-Zero的性能持续提升,最终达到了与OpenAI-o1-0912相当的水平。从训练轨迹图可以看出,模型在复杂推理方面表现出显著的自我进化能力。
然而,DeepSeek-R1-Zero也暴露出一些问题,主要包括可读性差和语言混合现象。为了解决这些问题,研究团队进一步开发了DeepSeek-R1。
DeepSeek-R1:解决可读性和语言混合问题
DeepSeek-R1的训练主要围绕解决DeepSeek-R1-Zero的两个核心问题:可读性差和语言混合。训练pipeline主要包括以下四个步骤:
- 构建少量长的COT数据:通过few shot的长cot数据、指令模型反思验证、格式化输出等方法进行冷启动数据收集。
- 引入语言一致性奖励:在RL过程中,计算目标语言在COT中的比例,虽然这可能导致准确率略有下降,但显著提升了可读性。
- 拒绝采样和监督微调:在RL收敛后,利用checkpoint收集下一轮SFT数据,整合来自其他领域的数据以增强模型在写作、角色扮演等方面的通用能力。
- 针对所有场景的强化学习:对数据、代码、逻辑推理领域使用特定奖励方式,对通用领域则使用奖励模型捕捉人类偏好。
为什么没有单独训练一个奖励模型?
研究团队发现,神经奖励模型在大规模强化学习过程中可能会遭遇奖励操控问题。此外,重新训练奖励模型需要额外的训练资源,会使整个训练流程变得更加复杂。因此,DeepSeek-R1采用了直接相加的方式合并准确性奖励和语言一致性奖励。
蒸馏阶段
最后,使用DeepSeek-R1生成的800k数据进行小模型蒸馏,仅包含SFT阶段,不涉及RL。这一过程进一步优化了模型的性能和效率。
DeepSeek-R1的开发展示了AI模型训练中技术创新的重要性,通过精心设计的训练策略和奖励机制,可以显著提升模型的性能和用户体验。这一研究为未来AI模型的发展提供了宝贵的参考和启示。