问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek 双引擎驱动知识蒸馏与强化学习,助力小模型 “逆袭” 大模型

创作时间:
作者:
@小白创作中心

DeepSeek 双引擎驱动知识蒸馏与强化学习,助力小模型 “逆袭” 大模型

引用
CSDN
1.
https://m.blog.csdn.net/weixin_52610848/article/details/145885941

在大模型蓬勃发展的当下,如何高效提升小模型性能成为研究关键。本文聚焦于蒸馏与强化学习对模型性能的影响,深入探讨小模型性能提升路径。

在大模型蓬勃发展的当下,如何高效提升小模型性能成为研究关键。本文聚焦于蒸馏与强化学习对模型性能的影响,深入探讨小模型性能提升路径。在先前研究中,通过蒸馏 DeepSeek - R1,小模型已取得优异成果。但模型能否仅依靠大规模强化学习在无蒸馏情况下达到类似性能仍有待探究。为此,我们以 Qwen - 32B - Base 为基础,运用数学、代码和 STEM 数据开展大规模强化学习训练,步数超 10000 步,得到 DeepSeek - R1 - Zero - Qwen - 32B 。实验结果表明,经大规模强化学习训练的 320 亿参数基础模型,性能与 QwQ - 32B - Preview 相近,然而从 DeepSeek - R1 蒸馏得到的 DeepSeek - R1 - Distill - Qwen - 32B 在所有基准测试中均显著优于 DeepSeek - R1 - Zero - Qwen - 32B。由此得出:一方面,将强模型知识蒸馏至小模型效果显著,而依赖大规模强化学习提升小模型性能,不仅需大量计算资源,还可能难以超越蒸馏的效果;另一方面,尽管蒸馏策略兼具经济性与有效性,但要实现智能的更大突破,强大基础模型与大规模强化学习或许依旧不可或缺。


表 6 | 蒸馏模型和强化学习模型在推理相关基准测试中的比较

通过蒸馏 DeepSeek-R1,小模型能取得令人瞩目的结果。然而,仍有一个问题:模型能否通过本文中讨论的大规模强化学习训练,在不进行蒸馏的情况下达到可比的性能?为了回答这个问题,我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模强化学习训练,训练步数超过 10000 步,得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,经过大规模强化学习训练的 320 亿参数基础模型,性能与 QwQ-32B-Preview 相当。然而,从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。

因此,我们可以得出两个结论:第一,将更强的模型蒸馏到小模型中能产生出色的效果,而依赖本文中提到的大规模强化学习的小模型,需要巨大的计算资源,甚至可能无法达到蒸馏的性能。第二,虽然蒸馏策略既经济又有效,但要突破智能的边界,可能仍然需要更强大的基础模型和大规模强化学习。

接下来分享下知识蒸馏的技术原理。

在机器学习领域,知识蒸馏作为一种模型压缩技术,近年来受到了广泛关注。它主要用于将大型模型(即教师模型)蕴含的知识迁移到较小的模型(即学生模型)中,这种技术在深度学习范畴内意义重大,有助于在保证模型性能的同时,有效降低对计算资源的需求。当前,知识蒸馏涵盖多种类型,主要包括标准知识蒸馏、基于涌现能力的知识蒸馏、上下文学习蒸馏、思维链蒸馏以及指令遵循蒸馏。

标准知识蒸馏

标准知识蒸馏(Standard KD)的核心目标,是促使学生模型学习大型语言模型(LLM)所具备的通用知识,比如输出分布和特征信息。这一方法与传统知识蒸馏思路相似,但不同之处在于其教师模型采用的是 LLM。像 MINILLM 和 GKD,就是该领域的典型代表。

MINILLM:MINILLM 专注于白盒生成 LLM 的蒸馏研究。在实践中,研究人员发现最小化前向 Kullback-Leibler 散度(KLD)存在一定问题,这可能会使学生模型在教师模型分布中不太可能出现的区域赋予过高概率,进而在自由生成样本时产生不合理的结果。为解决这一难题,MINILLM 选择最小化逆向 KLD。通过这种方式,能有效避免学生模型高估教师分布中的低概率区域,显著提升生成样本的质量。

GKD:GKD 主要探索自回归模型的蒸馏,白盒生成 LLM 是其中的一个子集。该方法在研究过程中明确了两个关键问题:一是训练期间模型的输出序列与学生模型在实际部署时生成的输出序列之间存在分布差异;二是模型可能存在表达能力不足的情况,即学生模型难以达到与教师模型分布相匹配的表达水平。针对这些问题,GKD 在训练过程中对学生的输出序列进行采样,以此缓解分布不匹配的问题;同时,通过优化逆向 KL 等替代散度,解决模型表达能力不足的难题。

基于涌现能力的知识蒸馏

基于涌现能力的知识蒸馏(Based EA KD)的目标不仅局限于迁移 LLM 的常识性知识,还着重于提取和迁移其涌现能力。当 LLM 处理复杂任务时,会展现出一些令人惊喜的能力,这些能力被称为 “涌现能力”,主要涵盖上下文学习(ICL)、思维链(CoT)和指令遵循(IF)三个方面。

上下文学习蒸馏

上下文学习蒸馏(ICL Distillation)的重点在于将 LLM 的上下文小样本学习能力以及语言建模功能迁移到较小的语言模型(SLM)中。实现这一目标的途径是将上下文学习目标与传统语言建模目标相结合。以 Meta-ICT 为例,该语言模型通过在不同任务中使用上下文学习目标进行元训练,从而具备了通过上下文学习适应未知任务的能力,极大地拓展了自身解决问题的范围。而 Multitask-ICT 则是利用 ICL 目标和目标任务中的部分示例对模型进行微调,之后借助上下文学习进行任务预测。

思维链蒸馏

思维链蒸馏(CoT Distillation)借助 LLM 生成的解释内容,强化小型推理模型的训练过程。它运用多任务学习框架,让较小的模型不仅拥有强大的推理能力,还具备生成解释的能力。比如,Fine-tune CoT 通过随机采样的方式,从 LLM 生成多个推理解决方案,这种训练数据增强策略对学生模型的学习十分有益。Fu 等人在研究中发现了语言模型多维能力之间的权衡关系,并提出对指令调整模型进行微调的方法。他们从大型教师模型中提取思维链推理路径,以此提升模型在分布外的泛化能力。Hsieh 等人则利用 LLM 的论据,作为在多任务框架内训练较小模型的额外指导信息。SOCRATIC CoT 训练了两个蒸馏模型:问题分解器和子问题求解器,前者负责将原始问题拆解为一系列子问题,后者则专注于解决这些子问题。DISCO 提出了一种基于 LLM 的全自动反事实知识蒸馏方法,通过设计特定的提示,利用 LLM 生成短语扰动,再经任务特定的教师模型筛选,提取高质量的反事实数据。SCOTT 通过对比解码,从大型 LM(教师模型)获取支持标准答案的论据,促使教师模型生成仅在考虑答案时才更具可信度的 Token。为确保蒸馏的可靠性,利用教师生成的基本论据,以反事实推理为目标训练学生 LM,防止学生模型忽视基本论据而做出不一致的预测。

指令遵循蒸馏

指令遵循蒸馏(IF Distillation)致力于提升语言模型仅依据任务描述执行新任务的能力,而无需依赖少量样本。通过使用一系列以指令形式呈现的任务进行微调,语言模型能够准确执行之前未接触过的指令所描述的任务。例如,Lion 充分利用 LLM 的高适应性特点,提升学生模型的性能。它引导 LLM 识别并生成 “hard” 指令,然后利用这些指令增强学生模型的能力,借助 LLM 的广泛用途特性,指导学生模型学习解决复杂指令和任务。

在大模型参数量不断攀升的当下,通过相对较小量级的模型蒸馏大模型知识这一研究方向显得愈发重要。随着技术持续进步,知识蒸馏有望在未来的机器学习和人工智能领域发挥更为关键的作用,为模型的优化和发展提供更多可能。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号