DeepSeek-R1：知识蒸馏技术的新突破

创作时间:

作者:

@小白创作中心

DeepSeek-R1：知识蒸馏技术的新突破

引用

CSDN

等

来源

https://blog.csdn.net/CV_Autobot/article/details/145348896

https://finance.sina.com.cn/roll/2025-02-01/doc-inehyiwc2621537.shtml

https://hk.finance.yahoo.com/news/%E6%8E%A8%E6%9B%B4%E4%BF%97%E6%A8%A1%E5%9E%8B%E5%8F%8D%E6%94%BB-%E5%A4%96%E5%AA%92%E5%88%86%E6%9E%90deepseek%E5%8B%9D%E5%87%BA%E9%97%9C%E9%8D%B5-openai%E5%9F%B7%E8%A1%8C%E9%95%B7%E6%89%BF%E8%AA%8D%E7%AB%99%E5%9C%A8%E6%AD%B7%E5%8F%B2%E9%8C%AF%E8%AA%A4-%E9%82%8A-003007391.html

https://finance.sina.com.cn/tech/roll/2025-01-22/doc-ineftmqz8043839.shtml

https://finance.sina.com.cn/tech/roll/2025-01-21/doc-inefsyzc8764054.shtml

https://finance.sina.com.cn/tech/csj/2025-01-26/doc-inehhekm2521855.shtml

https://www.sohu.com/a/854941867_121924584

https://finance.sina.com.cn/roll/2025-01-27/doc-inehkyez8791263.shtml

https://api-docs.deepseek.com/news/news250120

10.

https://www.cnblogs.com/deeplearningmachine/p/18693026

11.

https://api-docs.deepseek.com/zh-cn/news/news250120

12.

https://api-docs.deepseek.com/news/news1120

13.

https://www.letsclouds.com/news/deepseek-r1-reasoning-performance-meta-concern

DeepSeek团队近期发布了其最新研究成果DeepSeek-R1，通过创新性的知识蒸馏和强化学习技术，成功将670B参数的大模型压缩至7B参数的小型模型，同时保持了与OpenAI-o1相当的性能水平。这一突破不仅展示了知识蒸馏在压缩大规模深度神经网络方面的潜力，更为移动设备和边缘计算场景提供了更高效的解决方案。

技术创新：强化学习与知识蒸馏的完美结合

DeepSeek-R1的核心创新在于其独特的训练策略。项目团队设计了两种不同的训练方案：纯强化学习训练（R1-Zero）和多阶段训练（R1）。

纯强化学习训练（R1-Zero）

R1-Zero方案直接在基础模型上应用强化学习，无需预先的监督微调阶段。训练过程中，模型被要求按照特定格式输出推理过程和最终答案。奖励系统基于规则，主要包括准确性奖励和格式奖励。这种简单而直接的训练方式使得模型能够自然涌现思考、反思和探索不同解决方案的能力。

多阶段训练（R1）

多阶段训练方案旨在解决R1-Zero存在的可读性问题和多语言输出混杂的问题。整个训练流程分为四个主要阶段：

冷启动阶段：通过少量高质量的思维链（Chain of Thought, CoT）数据对模型进行微调，以提升输出的可读性和推理能力。
推理导向的强化学习：重点提升模型在数学、代码、科学和逻辑推理等任务上的表现。为了解决多语言混合输出的问题，引入了语言一致性奖励，确保模型在多语言环境下的稳定表现。
拒绝采样+监督微调：收集约80万条训练样本，其中60万条来自推理相关数据，20万条来自非推理数据。通过拒绝采样策略，确保训练数据的质量和多样性。
全场景强化学习：进一步对齐人类偏好，提升模型的有用性和无害性。这一阶段同时优化模型的推理能力和通用领域知识。