知识蒸馏综述:知识的类型
创作时间:
作者:
@小白创作中心
知识蒸馏综述:知识的类型
引用
CSDN
1.
https://blog.csdn.net/DD_PP_JJ/article/details/121578722
知识蒸馏是将知识从大模型向小模型传输的过程,可以用于模型压缩和训练加速。本文将介绍知识蒸馏的基本概念、核心组件以及知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。
知识蒸馏简介
定义:知识蒸馏代表将知识从大模型向小模型传输的过程。
作用:可以用于模型压缩和训练加速手段。
综述梳理思路:
- 知识蒸馏的种类
- 训练机制
- 教师-学生 架构
- 蒸馏算法
- 性能比较
- 实际应用
典型的知识蒸馏KD是Hinton于15年发表的paper,明确了知识蒸馏的想法是让学生模型通过模仿教师模型来取得具有竞争性的性能,甚至可以取得超越教师网络的性能。
知识蒸馏的核心研究:如何将知识从大模型传递给小模型。
知识蒸馏系统的三个核心组件:
- 知识 knowledge
- 蒸馏算法 distillation algorithm
- 教师学生架构 teacher-student architecture
知识蒸馏相关的扩展方向:
- teacher - student learning
- mutual learning
- assistant teaching
- life long learning
- self learning
在知识蒸馏中,我们主要关心:知识种类、蒸馏策略、教师学生架构
最原始的蒸馏方法是使用大模型的logits层作为教师网络的知识进行蒸馏,但知识的形式还可以是:激活、神经元、中间层特征、教师网络参数等。可以将其归类为下图中三种类型。
基于响应的知识(Response-Based Knowledge)
基于响应的知识一般指的是神经元的响应,即教师模型的最后一层逻辑输出。
响应知识的loss:
$$
L_{ResD}(z_t, z_s) = L_R(z_t, z_s)
$$
其核心想法是让学生模型模仿教师网络的输出,这是最经典、最简单、也最有效的处理方法
Hinton提出的KD是将teacher的logits层作为soft label.
$$
p(z_i, T) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}
$$
T是用于控制soft target重要程度的超参数。
那么整体蒸馏loss可以写作:
$$
L_{ResD}(p(z_t, T), p(z_s, T))
$$
热门推荐
民事诉讼谁举证据:举证责任规定及实务解析
名字对人一生的影响
李家洋院士:未来育种5.0方向
防滑地板砖种类有哪些?如何选购?
一文搞清员工职业生涯发展和企业发展周期的7大联系,eHR可有效助力!
比特币是什么?比特币为何能拥有今天的价值?
比特币是什么?为什么有价值?大白话解说比特币
上交所最新发布!“科创板八条”又一细则落地
顶底分型的定义是什么?顶底分型在技术分析中的作用是什么?
鱼缸放在家里哪个位置风水最好
请航天专家讲座、学习AI人工智能 宣恩校园科创活动有点硬核
社保认证在手机上怎么操作,资格认证如何操作
变速箱油是什么颜色的
短期投资的选择有哪些?这些短期投资的风险如何评估?
流量计跳动大的处理方法有几种
如何提高公司团队作风
@准妈妈准爸爸,如出现这些情况,尽快就医!
肉毒杆菌注射:价格、效果与注意事项全解析
葫芦吊坠佩戴禁忌与文化信仰解析
睡眠充足却依旧困倦:揭秘睡眠质量与调理之道
肺腺癌晚期食谱是什么
杭州6万余套保障性租赁住房 缓解新市民和年轻人住房压力
美国橡树岭国家实验室主导的聚变建模工具将加速反应堆设计开发
解密葡萄柚与药物的“邂逅”
科普|葡萄柚与85种药物“相克”,涉抗癌药、抗生素……
十二地支五行属性对照表 12地支刑冲克害表
二月二聊聊“头等大事”,多久剪一次头发最好?这四种发型竟易伤身?
神龙政变:武则天时代的终结与李唐王朝的复辟
胃轻瘫怎么调理好得快一点呢
威格士斜轴式轴向柱塞泵原理详解