问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek_R1蒸馏技术一文解析:让小模型也能拥有“超级大脑”

创作时间:
作者:
@小白创作中心

DeepSeek_R1蒸馏技术一文解析:让小模型也能拥有“超级大脑”

引用
CSDN
1.
https://blog.csdn.net/YYDS_54/article/details/145488526

DeepSeek团队最新研究显示,通过蒸馏技术,小模型也能拥有强大的推理能力。这项技术不仅降低了大模型的使用门槛,还为AI在教育、编程等领域的应用开辟了新路径。

一、为何“模型蒸馏”至关重要?

想象这样一个场景:在数学领域,一位资深的数学教授(类比大型语言模型)能够轻松应对国际奥数竞赛中那些极为复杂的难题。然而,当面对成千上万学生的日常答疑需求时,这位教授却显得力不从心。此时,如果能将教授的解题思路和方法提炼成一套精准的“秘籍”,并传授给助教(相当于小型模型),让助教也能够独立解决大部分难题,这便是模型蒸馏的核心思想。

在人工智能领域,像DeepSeek - R1这样拥有千亿参数的大模型无疑展现出了强大的能力。它们在各种复杂任务中都表现出色,似乎无所不能。但与此同时,这些大模型的计算成本却高得惊人,这使得它们在实际落地应用中面临着诸多限制。就好比一辆性能卓越但油耗极高的超级跑车,虽然动力强劲,但高昂的使用成本让许多人望而却步。

蒸馏技术的出现,为解决这一难题提供了新的思路。它就像是一场知识的传递与迁移,将大模型所蕴含的丰富“知识”巧妙地迁移到小模型上。这样一来,小模型不仅能够保留大模型的核心能力,还能大幅降低使用门槛,让更多的人能够轻松使用。DeepSeek团队的最新研究成果更是令人瞩目:仅依靠监督微调(SFT),小模型在数学、编程等推理任务中的表现就能够达到甚至超越GPT - 4o的水平!这无疑为小模型的发展开辟了一片广阔的新天地。

在人工智能领域,大语言模型(LLMs)的发展正逐渐拉近与通用人工智能(AGI)的距离,而推理能力作为衡量模型智能程度的关键指标,备受关注。DeepSeek 团队推出的 DeepSeek-R1 系列模型,通过强化学习(RL)和蒸馏技术,为提升模型推理能力带来了新的突破,本文将深入剖析其中的蒸馏技术。

二、DeepSeek - R1蒸馏技术深度揭秘

1. 蒸馏的核心流程:步步为营,精心雕琢

DeepSeek-R1-Zero 是直接在基础模型上应用强化学习训练的模型,不依赖监督微调(SFT)。训练采用 Group Relative Policy Optimization(GRPO)算法,能节省训练成本。奖励模型包含准确性奖励和格式奖励,通过特定训练模板引导模型按要求输出推理过程和答案。在 AIME 2024 基准测试中,DeepSeek-R1-Zero 的 pass@1 分数从 15.6% 提升到 71.0% ,展现出强大的推理能力提升潜力,但它存在可读性差、语言混杂等问题。

DeepSeek-R1 则引入了冷启动数据和多阶段训练流程。首先收集数千条长思维链(CoT)数据对基础模型进行微调,作为强化学习的初始阶段。接着进行推理导向的强化学习,通过引入语言一致性奖励缓解语言混杂问题。当推理导向的强化学习收敛后,利用拒绝采样收集 SFT 数据,涵盖推理和其他领域数据,对模型进行两轮微调。最后,通过二次强化学习阶段,使模型更符合人类偏好,提升推理能力的同时确保回答的实用性和无害性。

为赋予小模型推理能力,DeepSeek 团队使用 DeepSeek-R1 生成的 80 万样本,对 Qwen 和 Llama 等开源模型进行直接微调。实验选用 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B 等模型作为基础模型,仅对蒸馏模型进行 SFT,不进行 RL 阶段,以突出蒸馏技术的效果。

上述技术中所提出的蒸馏方法细分下来可以分为三个关键步骤:

Step 1:数据生成——打造高质量的“知识宝库”

在这个阶段,DeepSeek - R1扮演着“老师”的角色,犹如一位智慧的导师,负责生成80万条高质量的推理数据。这些数据涵盖了数学证明、代码生成、科学问答等多个丰富多样的场景,就像是为“学生”们准备的一座知识宝库。

示例数据格式:


<think>  
设方程√(a−√(a+x))=x,首先对等式两边进行平方操作,得到a−√(a+x)=x²。  
接着再次平方并整理,可得x⁴−2ax²−x+(a²−a)=0...  
</think>  
<answer>解的和为1</answer>  

Step 2:模型选择——挑选合适的“学生”

此步骤的关键在于选择合适的开源模型作为“学生”。这些“学生”模型就像是一群充满潜力的学徒,它们的参数量仅为原模型的1/10 - 1/100,例如Qwen - 7B、Llama - 70B等。虽然它们的规模相对较小,但却有着巨大的学习和成长空间。

Step 3:监督微调——传授推理的“精髓”

有了高质量的数据和合适的“学生”模型,接下来就是进行两轮精心的监督微调训练。在这个过程中,重点在于让“学生”模型学习推理链的生成逻辑,而不是简单地模仿结果。就像是教导学生解题,不仅要告诉他们答案,更要让他们明白解题的思路和方法。

2. 关键技术突破:三大法宝,助力蒸馏

在蒸馏过程中,DeepSeek - R1团队还取得了一系列关键技术突破,为蒸馏技术的成功实施提供了有力保障。

拒绝采样(Rejection Sampling)——过滤“杂质”,保留精华

这一技术的核心在于仅保留逻辑正确的推理路径,就像是一位严格的质检员,将那些错误或混乱的输出无情地过滤掉。通过这种方式,能够确保“学生”模型学习到的是高质量的推理过程,从而提高模型的准确性和可靠性。

语言一致性奖励——规范输出,提升可读性

为了避免中英文输出混杂的问题,团队引入了语言一致性奖励机制。这就像是一位语言导师,通过奖励的方式引导模型输出更加规范、统一的语言,从而提升模型输出的可读性,让用户能够更加轻松地理解模型的回答。

零样本提示优化——极简指令,激发潜力

研究发现,在某些情况下,添加示例(Few - shot)反而会降低模型的性能。因此,团队采用了极简指令格式,让模型在没有过多示例的干扰下,能够更好地发挥自身的潜力,展现出更强大的推理能力。

三、实验结果:小模型的惊艳逆袭

评估模型性能选用了 MMLU、MATH-500、Codeforces 等多种基准测试,涵盖知识、数学、编程等多个领域。对比的基线模型包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513 等。评估时设置模型最大生成长度为 32,768 tokens,采用 pass@1 评估方法,采样温度设为 0.6 ,top-P 值设为 0.95。

DeepSeek-R1 在推理任务中表现出色,在 AIME 2024 上 Pass@1 得分达到 79.8%,略超 OpenAI-o1-1217;MATH-500 上得分 97.3%,与 OpenAI-o1-1217 相当且远超其他模型。在编程相关任务中,DeepSeek-R1 在 Codeforces 竞赛中获得 2,029 Elo 评分,超越 96.3% 的人类参赛者。在知识基准测试中,DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等测试中成绩突出,虽然在部分测试中略逊于 OpenAI-o1-1217,但超越了其他闭源模型。

蒸馏模型的表现同样令人瞩目,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%,超过 QwQ-32B-Preview;DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6% ,在 MATH-500 上得分 94.3% ,在 LiveCodeBench 上得分 57.2%,这些结果远超之前的开源模型,与 o1-mini 相当。

这里稍微解释一下 AIME 2024、MATH-500 与 pass@1 评估方法:

在评估语言模型的推理和解题能力时,AIME 2024、MATH-500和pass@1是常见的测试基准与评估方法,各自具有独特作用:

  • AIME 2024:即2024年美国数学邀请赛(American Invitational Mathematics Examination 2024),由美国数学协会(MAA)举办,是美国数学竞赛系列的重要一环。该竞赛面向在之前美国数学竞赛(AMC)中表现优异的学生,难度较高,涵盖代数、几何、数论、组合数学等多个数学领域,题目注重考查学生的数学推理、逻辑思维和解题技巧。在DeepSeek - R1相关研究中,AIME 2024被用作评估模型数学推理能力的基准测试,能检验模型在复杂数学问题上的解题水平。

  • MATH-500:是一个包含500道数学题的测试集,具体题目可能涉及代数、几何、微积分、概率统计等多个数学分支。与AIME 2024不同,MATH-500并非实际竞赛,而是专门为评估模型数学能力构建的数据集。在研究中,它能更全面地测试模型在不同类型数学问题上的解题能力,通过大量题目覆盖各种数学知识点和难度层次,反映模型数学能力的深度和广度。

  • pass@1评估方法:是一种用于衡量模型回答正确性的评估指标。在测试模型时,针对每个问题,模型会生成k个回答(k值依据测试集规模而定,通常在4到64之间) 。pass@1的计算方法为:p a s s @ 1 = 1 k ∑ i = 1 k p i pass @ 1=\frac{1}{k} \sum_{i=1}^{k} p_{i}pass@1=k1 ∑i=1k pi ,其中p i p_{i}pi 代表第i个回答的正确性,正确取值为1,错误取值为0。pass@1表示模型至少有一个回答正确的概率,该指标能直观反映模型在单次尝试中给出正确答案的能力,在不同模型对比中,可清晰展现模型回答问题的准确性差异。


模型 AIME数学竞赛(Pass@1) 代码竞赛(Elo评分)
GPT - 4o 9.3% 759
Qwen - 32B(原生) 50.0% 1316
蒸馏版Qwen - 7B 55.5% 1189

数据来源:DeepSeek_R1 论文Table 5

这些实验结果令人震惊不已:

1.5B超小模型在MATH - 500数学基准测试中达到了83.9%的准确率,成功超越了Claude - 3.5 - Sonnet,展现出了惊人的数学推理能力。

32B蒸馏模型在Codeforces编程竞赛中获得了1691的高分,这个成绩超过了96%的人类参赛者,证明了蒸馏模型在编程领域的卓越表现。

即使不进行强化学习(RL),蒸馏技术的效果也已经远远超过了传统的训练方法,这充分显示了蒸馏技术的强大优势。

四、实战案例:用蒸馏模型巧解奥数题

问题:设a > 1,求方程√(a−√(a+x))=x的实根之和。(来自AIME竞赛)

蒸馏模型Qwen - 7B的输出


<think>  
1. 首先对等式两边进行平方:a−√(a+x)=x²。  
2. 然后进行移项操作,得到√(a+x)=a−x²。  
3. 接着再次平方:a+x = (a−x²)²。  
4. 展开并整理可得:x⁴−2ax² +a² = a+x,进一步化简为x⁴−2ax² −x +a²−a = 0。  
5. 最初尝试利用韦达定理,发现无x³项,误以为实根之和为0。但当a = 2时进行测试,解为0和1,与之前的结果矛盾。  
6. 于是启动反思机制,重新检查计算步骤,发现步骤3展开错误。  
7. 经过修正后,对最终方程进行因式分解,得到(x²−x−a)(x²+x−a + 1)=0。  
8. 经过分析发现,仅当x²−x−a = 0时有实根,根据韦达定理,实根之和为1。  
</think>  
<answer>\boxed{1}</answer>  

解析

在这个解题过程中,模型展现出了令人惊叹的自我验证能力。当发现利用韦达定理得到的结果与测试案例矛盾时,模型能够主动回溯检查计算步骤,就像是一位严谨的数学家在发现错误后会仔细检查每一个计算环节。最终,通过因式分解得到了正确答案。这种“反思”能力正是从DeepSeek - R1中蒸馏而来的核心特征,它使得模型能够在复杂的推理任务中不断自我修正,提高解题的准确性。

五、开发者指南:轻松上手蒸馏模型

1. 开源资源:丰富多样,便捷获取

  • 模型地址:在HuggingFace仓库中搜索
    DeepSeek - R1 - Distill - Qwen - 7B
    即可找到相关模型。

  • 支持尺寸:提供了多种不同参数规模的模型供选择,包括1.5B/7B/14B/32B/70B,开发者可以根据自己的需求和硬件条件进行选择。

2. 推理示例代码:简洁明了,易于使用


from transformers import AutoTokenizer, AutoModelForCausalLM  
model = AutoModelForCausalLM.from_pretrained("DeepSeek/R1 - Distill - Qwen - 7B")  
tokenizer = AutoTokenizer.from_pretrained("DeepSeek/R1 - Distill - Qwen - 7B")  
prompt = "解方程√(5−√(5+x))=x,给出详细思考过程并用<answer>标注答案"  
inputs = tokenizer(prompt, return_tensors="pt")  
outputs = model.generate(**inputs, max_length=1024)  
print(tokenizer.decode(outputs[0]))  

3. 调优建议:精心调整,提升性能

  • 温度参数:建议将温度参数设置在0.6 - 0.7之间,这样可以在模型的创造性和输出的准确性之间找到一个良好的平衡点。

  • 响应长度:为了防止模型输出发散,建议将响应长度限制在3000token以内。

  • 提示工程:在向模型提问时,尽量采用直接提问的方式,例如“证明哥德巴赫猜想”,避免添加过多的示例,以免干扰模型的推理过程。

六、未来展望:推理民主化时代已然来临

DeepSeek的实践充分证明:模型能力不再与参数量强相关。通过蒸馏技术,研究者就像是一位神奇的魔法师,能够将大型模型的“思维模式”巧妙地封装到更小的模型中。这种技术正在深刻地改变着AI应用的格局:

  • 教育领域:7B模型就像是一位24小时在线的数学辅导助教,能够随时随地为学生解答数学问题,帮助他们提高学习成绩。

  • 编程辅助:本地部署的32B模型就像一位编程高手,能够实时调试复杂的代码,提高编程效率。

  • 科研工具:在笔记本电脑上运行的科学问答系统,让科研人员能够更加便捷地获取知识,加速科研进程。

正如论文作者所言:“蒸馏的经济效益可能远超想象”。或许在不久的将来,每个人都能在手机端运行一个“奥数冠军级”的AI助手——而这,正是DeepSeek - R1蒸馏技术带给我们的最大启示。

思考题:如果你的手机只能运行1B参数的模型,你希望它优先获得哪种能力?欢迎在评论区讨论!

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号