知识蒸馏(Knowledge Distillation)三种基本蒸馏方法
创作时间:
作者:
@小白创作中心
知识蒸馏(Knowledge Distillation)三种基本蒸馏方法
引用
CSDN
1.
https://blog.csdn.net/m0_64931337/article/details/146121640
知识蒸馏(Knowledge Distillation)是一种模型压缩技术,主要通过训练一个较小的学生模型来模仿一个较大的教师模型的行为,从而在保持模型性能的同时降低计算和存储成本。在知识蒸馏中,根据蒸馏的具体机制,可以分为以下三种主要方法:基于逻辑的蒸馏、基于特征的蒸馏和基于关系的蒸馏。
1. 基于逻辑的蒸馏(Logit-based Distillation)
基于逻辑的蒸馏是知识蒸馏中最经典、最广泛使用的一种方法,最早由 Hinton 等人在论文《Distilling the Knowledge in a Neural Network》中提出。这种方法的核心思想是让学生模型学习教师模型的输出概率分布。人话:利用整个网络最后输出的预测图进行学习蒸馏的就是基于逻辑的蒸馏。
机制:
- 教师模型的输出通常是通过 softmax 函数转化为类别概率分布的逻辑值(logits)。
- 学生模型通过最小化与教师模型输出分布的差异(通常通过 KL 散度损失实现),来学习教师模型的知识。
- 为了更好地捕捉不同类别之间的相对关系,通常引入一个温度参数来平滑教师模型的输出分布。
损失函数:
基于逻辑的蒸馏包括两个部分:
- 蒸馏损失(KL 散度):
,
其中
是温度平滑后的概率分布。
- 监督损失(Cross-Entropy):
,
其中
是真实标签。
最终总损失是两部分的加权和:
优点:
- 简单有效,适用于分类任务。
- 不需要对教师模型进行额外的修改。
缺点:
- 如果教师模型的输出信息不足(例如过于自信),可能会影响蒸馏效果。
2. 基于特征的蒸馏(Feature-based Distillation)
基于特征的蒸馏通过让学生模型学习教师模型中间层的特征表示(feature representations)来传递知识。这种方法认为教师模型的中间层特征比最终输出包含更多的信息。人话:Backbone输出的特征图进行的蒸馏学习就是基于特征的知识蒸馏。
机制:
- 选择教师模型和学生模型的某些中间层特征映射(例如卷积层输出)。
- 学生模型通过一个映射函数(例如线性变换或非线性变换)将其特征调整到与教师模型特征对齐,从而学习更丰富的表示。
损失函数:
- 通常采用范数或其他距离度量来最小化教师特征和学生特征之间的差异:
.
优点:
- 提供比逻辑层更丰富的知识。
- 在复杂任务(如目标检测、语义分割等)中效果较好。
缺点:
- 需要选择合适的中间特征层,可能需要额外的调整。
- 对学生模型的架构有一定要求(需要与教师模型有类似的层次结构)。
3. 基于关系的蒸馏(Relation-based Distillation)
基于关系的蒸馏关注的是样本之间的关系信息,而不是单个样本本身的特征或逻辑值。这种方法的核心思想是学生模型应学习教师模型输出或特征之间的结构化关系。人话:网络中间层例如特征增强以及特征融合层中切片出来进行蒸馏学习的就叫基于关系的蒸馏。
机制:
- 教师模型不仅提供每个样本的特征或输出,还通过样本之间的关系(如相似度、距离)构建知识。
- 学生模型通过模仿这些关系来学习更高阶的知识。
常见方法:
- 样本对之间的关系:
- 比较样本之间的相似性(如余弦相似度、欧氏距离)。
- 学生模型通过最小化与教师模型中样本对关系的误差来学习。
- 全局关系:
- 通过图(Graph)建模,捕捉整个数据集的全局关系。
- 使用图嵌入或注意力机制等技术来表示和学习这些关系。
损失函数:
- 基于关系的蒸馏通常采用关系度量的最小化,例如:
,
其中
表示样本之间的关系矩阵。
优点:
- 通过样本之间的关系引入了更高层次的语义信息。
- 对于需要捕捉上下文依赖或全局结构的任务(如自然语言处理)非常有效。
缺点:
- 计算关系矩阵可能带来额外的计算开销。
- 实现复杂,依赖于任务和数据的关系建模。
总结
蒸馏机制 | 核心思想 | 优点 | 缺点 |
|---|---|---|---|
基于逻辑的蒸馏 | 学习教师模型输出的概率分布 | 简单高效,适合分类任务 | 输出信息不足时效果可能受限 |
基于特征的蒸馏 | 学习教师模型的中间层特征表示 | 表达更丰富,适合复杂任务 | 对学生模型架构有要求,需选择合适的特征层 |
基于关系的蒸馏 | 学习样本之间的关系或全局结构 | 捕捉高阶语义信息,适合上下文依赖的任务 | 实现复杂,计算开销较大 |
热门推荐
另一个视角的靖康之变:因为金兵南下,宋朝才得以存续三百多年
打印机与电脑连接方式详解(了解不同的打印机和电脑连接方式)
什么是红衣大炮?潼关之战事满清是如何得到的?
不锈钢热处理工艺:类型、应用及性能提升
砍树有程序,政府先同意
小红书上第一批留学博主开始撤离了
美股收跌道指下跌440点 特朗普关税政策令股指承压
重庆燃气收费问题整改:企业责任与消费者信任的重建之路
2025过年出行吉日吉时
人工智能营销工程师:提升和重塑技能以迎接人工智能时代
十大适合春天吃的美味蒸菜 10道春季滋补养生蒸菜食谱
韧带重建移植物的选择
以案释法:原告证据不足 法院如何判决
甲钴胺的五大临床应用:一文总结
美国顶尖大学就业报告:这些专业的毕业生最受雇主欢迎!
小学生家庭教育的有效方法与策略:亲子关系、兴趣培养、品德教育及实践引导
晚上睡觉总出汗怎么办
鱼腥草的正确吃法
拉肚子喝盐水还是糖水?一文详解腹泻的补水和治疗方案
四川九寨沟周围旅游景点有哪些:好玩的名称一览
古代常用的注音方法有哪些
龙珠中高开低走的典型——基纽特种部队
为了眼前的利益,扼杀未来的机会…教育上的“贫穷思维”,你中了几条?
喝可乐的好处和坏处
津媒谈U20亚洲杯:国青重返U20世界杯关键一战可能是1/4决赛
创新科技成果转化模式,联合推动光纤传感技术研发
房屋出租合同书注意哪些细节
在生态度假区规划野奢帐篷营地的要点
具体案例是什么?如何分析和应用具体案例?
酒神与日神:尼采论希腊悲剧精神