知识蒸馏综述:知识的类型
创作时间:
作者:
@小白创作中心
知识蒸馏综述:知识的类型
引用
CSDN
1.
https://blog.csdn.net/DD_PP_JJ/article/details/121578722
知识蒸馏是将知识从大模型向小模型传输的过程,可以用于模型压缩和训练加速。本文将介绍知识蒸馏的基本概念、核心组件以及知识的分类,包括基于响应的知识、基于特征的知识和基于关系的知识。
知识蒸馏简介
定义:知识蒸馏代表将知识从大模型向小模型传输的过程。
作用:可以用于模型压缩和训练加速手段。
综述梳理思路:
- 知识蒸馏的种类
- 训练机制
- 教师-学生 架构
- 蒸馏算法
- 性能比较
- 实际应用
典型的知识蒸馏KD是Hinton于15年发表的paper,明确了知识蒸馏的想法是让学生模型通过模仿教师模型来取得具有竞争性的性能,甚至可以取得超越教师网络的性能。
知识蒸馏的核心研究:如何将知识从大模型传递给小模型。
知识蒸馏系统的三个核心组件:
- 知识 knowledge
- 蒸馏算法 distillation algorithm
- 教师学生架构 teacher-student architecture
知识蒸馏相关的扩展方向:
- teacher - student learning
- mutual learning
- assistant teaching
- life long learning
- self learning
在知识蒸馏中,我们主要关心:知识种类、蒸馏策略、教师学生架构
最原始的蒸馏方法是使用大模型的logits层作为教师网络的知识进行蒸馏,但知识的形式还可以是:激活、神经元、中间层特征、教师网络参数等。可以将其归类为下图中三种类型。
基于响应的知识(Response-Based Knowledge)
基于响应的知识一般指的是神经元的响应,即教师模型的最后一层逻辑输出。
响应知识的loss:
$$
L_{ResD}(z_t, z_s) = L_R(z_t, z_s)
$$
其核心想法是让学生模型模仿教师网络的输出,这是最经典、最简单、也最有效的处理方法
Hinton提出的KD是将teacher的logits层作为soft label.
$$
p(z_i, T) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}
$$
T是用于控制soft target重要程度的超参数。
那么整体蒸馏loss可以写作:
$$
L_{ResD}(p(z_t, T), p(z_s, T))
$$
热门推荐
如何评估城市工业发展?这种评估方法有哪些实际应用?
美国留学生意外怀孕后该如何应对
泸定桥:一座承载历史记忆的铁索桥
养热带鱼,3-5天换一次水,健康又美丽!
日本留学费用|2024年度日本大学平均学费公布!私立大学的学费也将上涨?
情绪护肤,居然是实打实的科学
“尼格买提成功了”“建议岳云鹏别上春晚”……这些春晚热梗火上热搜
如何进行项目需求沟通
直击传统生鲜行业痛点,探索生鲜供应链新模式!
从田地到货架,看蔬菜、生鲜的“食安之旅”
AG600“鲲龙”正式完成全部取证试飞科目
危险源辨识、风险评估和风险控制计划管理程序
虾青素副作用?三类人群坚决不能吃
老子《道德经》之三十
天津孙庄子村:民宿经济点亮乡村振兴新希望
三国吴国灭亡的深层原因探析
牛初乳能提高婴幼儿的免疫力吗?真相是这样的
珍珠首饰如何搭配 不同场合珍珠佩戴与搭配技巧
营养精神病学:食物和情绪的新兴领域
全球最安全国家排名出炉!澳大利亚稳居第二,或成世界最后净土
视觉传达设计:解锁创意与沟通的艺术——必备能力全解析
中医里的"气血":人体健康的核心密码
被孔子怒骂"朽木不可雕"的宰予,竟是搅动齐楚的风云人物
“孔门”也有差生?宰予:让孔子头疼的“坏学生”典型
假期海滩玩,切记留意海滩安全旗颜色!有什么情况一看就知
白糖价格上涨的原因是什么?这种价格变动如何影响相关行业?
小白必看!Gerber文件超详细解读
为什么最近感觉耳朵发堵
如何撰写有效的房地产纠纷起诉状法律文书
技术团队如何开周会会议