效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
创作时间:
作者:
@小白创作中心
效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
引用
CSDN
1.
https://m.blog.csdn.net/aizhijie001/article/details/144104898
频域知识蒸馏是一种将频域分析与知识蒸馏相结合的技术,它通过提取和传递频域特征来提升模型性能。这种方法在图像生成、时序信号分类等领域显示出了其有效性,尤其是在提升学生模型的泛化能力和分类精度方面。此外,频域知识蒸馏通过关注高频成分和语义信息,能够在模型训练过程中更有效地传递关键特征,从而在密集预测任务中提高性能。这种技术的应用展示了频域分析在模型优化和知识传递中的潜力。
论文1:通过频率域知识增强的自蒸馏目标分割方法
- 构建目标分割网络:高效整合多级特征构建目标分割网络。
- 像素级虚拟教师生成模型:提出像素级虚拟教师生成模型,通过自蒸馏学习将像素级知识传递给目标分割网络,提升泛化能力。
- 频率域知识自适应生成方法:提出基于频率域知识自适应扩展的数据增强方法,使用可微分量化操作符动态调整可学习的像素级量化表。
- 卷积神经网络学习规则探讨:探讨了卷积神经网络在学习过程中对频率域知识的偏好。
创新点:
- 像素级虚拟教师生成模型:构建了无需复杂辅助分支结构和匹配策略的像素级虚拟教师生成模型。
- 频率域知识自适应扩展的数据增强方法:提出了保留信息动态调整的基于频率域知识自适应扩展的数据增强方法。
- 性能提升:实验结果表明,该方法能有效提升目标分割网络的性能,与典型特征精炼自蒸馏方法相比,平均Fβ和mIoU分别提高了约1.5%和3.6%。
- 揭示CNN学习规则:揭示了卷积神经网络在训练过程中更倾向于学习低频信息的学习规则。
论文2:无教师的双重自蒸馏图知识蒸馏框架
- 无教师图自蒸馏(TGS)框架:提出一个不需要教师模型或GNNs的图知识蒸馏框架。
- 基于MLPs的隐式结构信息利用:在训练中利用图拓扑意识,但在推理中不依赖数据依赖性。
- 双重知识自蒸馏:包括特征级自蒸馏和标签级自蒸馏,分别从邻居节点到目标节点和从目标节点到邻居节点的知识蒸馏。
- 边采样策略:为了减少大规模图训练时的内存使用,采用边采样策略进行批量式自蒸馏。
创新点:
- 无需教师模型或GNNs:提出了一个在训练和推理阶段都不依赖教师模型或GNNs的框架。
- 基于MLPs的框架:完全基于MLPs,通过隐式使用结构信息指导双重知识自蒸馏。
- 推理效率:TGS框架在推理时比现有GNNs快75×-89×,比传统推理加速方法快16×-25×。
- 性能提升:在六个真实世界数据集上,TGS通过双重自蒸馏显著提升了普通MLPs的性能,平均提高了15.54%,并且超过了现有的图知识蒸馏算法。
论文3:DDK:提取领域知识以提升大型语言模型的效率
- 领域知识引导的采样策略:通过量化教师和学生模型在不同领域的表现差异来动态调整数据混合,以便在学生和教师模型性能差异较大的领域分配更多的计算资源。
- 领域差异因子构建:使用预训练的教师模型和正在训练的学生模型在多个领域的验证数据集上计算跨领域的性能差异,并据此构建领域差异因子。
- 因子平滑更新机制:为了增强知识蒸馏过程的稳定性和鲁棒性,提出了一个因子平滑更新策略,以平滑领域差异因子的更新。
- 整体优化:结合学生模型参数更新和领域差异因子更新,通过最小化教师和学生模型输出对数几率的差异来进行优化。
创新点:
- 领域特定数据混合研究:首次研究了领域特定数据混合对大型语言模型蒸馏的影响,并有效地将教师网络的领域知识转移到学生模型上。
- 因子平滑更新策略:提出了一种策略性地增强蒸馏过程对目标领域的关注,有效稳定了领域知识引导的采样过程,使蒸馏过程更加平滑。
- 多基准数据集的广泛实验:在多个基准数据集上进行了广泛的实验,证明了DDK框架的有效性和泛化能力,特别是在提升学生模型在不同领域的表现方面。
论文4:面向领域的k最近邻知识蒸馏在机器翻译中的应用
- 领域感知kNN数据存储构建:使用原始NMT模型对特定领域的训练集进行强制解码,获取多个上下文表示,并与相应的目标标记一起保存到领域感知kNN数据存储中。
- 领域感知教师模型微调:通过领域感知知识选择对kNN表示进行筛选,训练一个具有特定领域知识的教师模型。
- 领域感知适配器蒸馏:通过领域感知教师模型进一步提取领域相关知识,并将其从领域感知数据存储中蒸馏到适配器层。
创新点:
- 领域感知kNN-KD方法:提出了一种新的方法,通过在蒸馏过程中筛选出与领域相关的邻域知识进行学习,提高了学生模型的学习效率。
- 两步蒸馏过程:首先训练一个领域相关的教师模型,然后利用该模型将领域相关的知识蒸馏到适配器层,从而提高翻译性能。
- 专注于领域知识的学习:通过改进领域特定低频词的翻译,Dk-KD方法在多领域翻译任务中实现了性能的提升。
热门推荐
血尿莫轻视:六大病因与预防指南
尿中带血是何因?5大常见病因与应对方案
BMI指数解读:影响因素、健康风险与局限性
指甲上的健康密码:5种异常变化与4个护甲秘诀
多大的小孩可以吃黄芪?小孩喝黄芪水的副作用有哪些?
偏硅酸矿泉水选购全攻略:标准解读与品牌推荐
矿泉水矿物质含量哪家强?六大品牌对比与选购建议
偏硅酸矿泉水:心血管保护与美容养颜的天然之选
个人养老金领取指南:5种方式及应对方案
全生命周期健康管理:四大阶段守护一生健康
属猪男的性格:温和开朗中的认真执着
1971年出生属猪人:一生运势与性格特征详解
肾结石完全指南:症状识别、预防方法与治疗选择
腹痛类型与病因全解析:这些情况需及时就医
血尿不全是病?医生教你辨别真假血尿
玩转西湖:十景打卡攻略与实用贴士
杭州二日游最佳行程:西湖十景+灵隐寺深度游览
小河公主:沉睡千年的楼兰古国之美
从饮食到运动:女性尿失禁预防全攻略
阳江5大冬日美食:沙虫汤暖肾,炸番薯含富硒
从营养成分看牛奶优势:全面均衡胜过网红饮品
别再一上车就开暖风!冬季汽车暖风使用全攻略
普通人手机应该选多大内存?3大建议很重要
《焦虑自救手册》:科学应对焦虑,重获内心平静
《解码中国式家庭教育》:破解教育错位,重塑家庭情绪管理
宇宙暗物质的八大证据
暗物质宇宙的奥秘可以通过鲁宾天文台来解开
国庆期间韶山迎11万游客,七大景点展现伟人故里魅力
古代战争中,士兵为何要用粪水浸泡箭头,不怕生锈吗?
痛风患者喝茶:时机、种类和建议