问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek-R1模型训练详解：从零样本推理到可读性优化

创作时间:

作者:

@小白创作中心

DeepSeek-R1模型训练详解：从零样本推理到可读性优化

引用

简书

1.

https://www.jianshu.com/p/9312fd5b4c23

DeepSeek-R1是DeepSeek系列模型的重要迭代版本，通过强化学习和精细调优，显著提升了模型的推理能力和可读性。本文将详细介绍DeepSeek-R1的训练过程、技术细节及其与DeepSeek-R1-Zero的主要区别。

DeepSeek-R1-Zero：从基础到强大的零样本推理能力

DeepSeek-R1-Zero是DeepSeek系列模型的重要迭代版本，它直接基于DeepSeek-V3-Base进行强化学习（RL）训练。经过数千步的训练，DeepSeek-R1-Zero展现出了强大的性能和惊人的推理能力。在AIME 2024评测中，其pass@1分数从15.6%大幅提升至71.0%，通过多数投票机制，分数甚至可以进一步提升至86.7%，与OpenAI-o1-0912的水平相当。

DeepSeek-R1-Zero的训练方法

DeepSeek-R1-Zero的训练采用了多种创新技术：

Group Relative Policy Optimization (GRPO)：通过组得分代替critic model，显著降低了RL训练成本。
基于规则的奖励机制：包括准确性奖励和格式奖励。准确性奖励针对有明确答案的数学问题或可通过执行测试验证的问题；格式奖励则强制模型将思考过程放在特定标签之间。
结构化训练模板：采用图示的简单模板，要求模型先生成推理过程，再给出最终答案，避免了内容偏见。

DeepSeek-R1-Zero的训练发现

随着训练步数的增加，DeepSeek-R1-Zero的性能持续提升，最终达到了与OpenAI-o1-0912相当的水平。从训练轨迹图可以看出，模型在复杂推理方面表现出显著的自我进化能力。

然而，DeepSeek-R1-Zero也暴露出一些问题，主要包括可读性差和语言混合现象。为了解决这些问题，研究团队进一步开发了DeepSeek-R1。

DeepSeek-R1：解决可读性和语言混合问题

DeepSeek-R1的训练主要围绕解决DeepSeek-R1-Zero的两个核心问题：可读性差和语言混合。训练pipeline主要包括以下四个步骤：

构建少量长的COT数据：通过few shot的长cot数据、指令模型反思验证、格式化输出等方法进行冷启动数据收集。
引入语言一致性奖励：在RL过程中，计算目标语言在COT中的比例，虽然这可能导致准确率略有下降，但显著提升了可读性。
拒绝采样和监督微调：在RL收敛后，利用checkpoint收集下一轮SFT数据，整合来自其他领域的数据以增强模型在写作、角色扮演等方面的通用能力。
针对所有场景的强化学习：对数据、代码、逻辑推理领域使用特定奖励方式，对通用领域则使用奖励模型捕捉人类偏好。

为什么没有单独训练一个奖励模型？

研究团队发现，神经奖励模型在大规模强化学习过程中可能会遭遇奖励操控问题。此外，重新训练奖励模型需要额外的训练资源，会使整个训练流程变得更加复杂。因此，DeepSeek-R1采用了直接相加的方式合并准确性奖励和语言一致性奖励。

蒸馏阶段

最后，使用DeepSeek-R1生成的800k数据进行小模型蒸馏，仅包含SFT阶段，不涉及RL。这一过程进一步优化了模型的性能和效率。

DeepSeek-R1的开发展示了AI模型训练中技术创新的重要性，通过精心设计的训练策略和奖励机制，可以显著提升模型的性能和用户体验。这一研究为未来AI模型的发展提供了宝贵的参考和启示。

热门推荐

避开七大误区，轻松选购适合你的洗碗机

避开七大误区，轻松选购适合你的洗碗机

2024年立定跳远空中课堂：运动生物力学分析

2024年立定跳远空中课堂：运动生物力学分析

E 开头办公软件有哪些

E 开头办公软件有哪些

6月，自费交社保注意了！深圳社保缴费基数再度上调10%！

6月，自费交社保注意了！深圳社保缴费基数再度上调10%！

自我美黑安全吗？皮肤科医生为你解答

自我美黑安全吗？皮肤科医生为你解答

又上热搜！最近很火的“煮苹果水”，到底怎么喝更有用？

又上热搜！最近很火的“煮苹果水”，到底怎么喝更有用？

相思鸟饲养指南：从选购到养护的全方位攻略

相思鸟饲养指南：从选购到养护的全方位攻略

控制情绪的三个技巧

控制情绪的三个技巧

干货！美国哪些大学接受高考成绩？

干货！美国哪些大学接受高考成绩？

春天的颜色有哪些

春天的颜色有哪些

蚰蜒的生态价值与人类互动，应该如何避免伤害？

蚰蜒的生态价值与人类互动，应该如何避免伤害？

蜈蚣的危害及防治

蜈蚣的危害及防治

F15EX硬碰J16，谁才是最强四代机？

F15EX硬碰J16，谁才是最强四代机？

中美战机对决：F15EX与J16到底谁更胜一筹呢

中美战机对决：F15EX与J16到底谁更胜一筹呢

提升工作效率的秘诀：掌握工作流程图的应用技巧

提升工作效率的秘诀：掌握工作流程图的应用技巧

拆迁补偿：按建筑面积还是占地面积计算？

拆迁补偿：按建筑面积还是占地面积计算？

日本热门叶黄素推荐：守护眼睛健康的必备选择

日本热门叶黄素推荐：守护眼睛健康的必备选择

钢卷运输车最佳方案探究

钢卷运输车最佳方案探究

仅需步行70分钟，赏哈尔滨市南岗区15处欧陆建筑

仅需步行70分钟，赏哈尔滨市南岗区15处欧陆建筑

我国已有24个省份出台省级控烟相关法规

我国已有24个省份出台省级控烟相关法规

胃溃疡怎么治？五种治疗方案全解析

胃溃疡怎么治？五种治疗方案全解析

怎么帮助宝宝练习抬头？可以试试这几种方法

怎么帮助宝宝练习抬头？可以试试这几种方法

多元线性回归一般步骤与实例分析

多元线性回归一般步骤与实例分析

如何做到科学入“睡”让自己好“眠”？这六条建议请收藏

如何做到科学入“睡”让自己好“眠”？这六条建议请收藏

图像分类算法概述：深度学习方法

图像分类算法概述：深度学习方法

陈皮、薏米、百合……煲绿豆汤解暑，究竟应该加什么？

陈皮、薏米、百合……煲绿豆汤解暑，究竟应该加什么？

喝陈皮配上3个药，清痰湿通气机健脾胃

喝陈皮配上3个药，清痰湿通气机健脾胃

启发式算法在机器学习中的五大应用领域

启发式算法在机器学习中的五大应用领域

夏裕医生：血管堵塞藏不住，有这7个症状的人要小心了

夏裕医生：血管堵塞藏不住，有这7个症状的人要小心了

婴儿参加葬礼？这些健康隐患需警惕

婴儿参加葬礼？这些健康隐患需警惕

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号