效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
创作时间:
作者:
@小白创作中心
效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
引用
CSDN
1.
https://m.blog.csdn.net/aizhijie001/article/details/144104898
频域知识蒸馏是一种将频域分析与知识蒸馏相结合的技术,它通过提取和传递频域特征来提升模型性能。这种方法在图像生成、时序信号分类等领域显示出了其有效性,尤其是在提升学生模型的泛化能力和分类精度方面。此外,频域知识蒸馏通过关注高频成分和语义信息,能够在模型训练过程中更有效地传递关键特征,从而在密集预测任务中提高性能。这种技术的应用展示了频域分析在模型优化和知识传递中的潜力。
论文1:通过频率域知识增强的自蒸馏目标分割方法
- 构建目标分割网络:高效整合多级特征构建目标分割网络。
- 像素级虚拟教师生成模型:提出像素级虚拟教师生成模型,通过自蒸馏学习将像素级知识传递给目标分割网络,提升泛化能力。
- 频率域知识自适应生成方法:提出基于频率域知识自适应扩展的数据增强方法,使用可微分量化操作符动态调整可学习的像素级量化表。
- 卷积神经网络学习规则探讨:探讨了卷积神经网络在学习过程中对频率域知识的偏好。
创新点:
- 像素级虚拟教师生成模型:构建了无需复杂辅助分支结构和匹配策略的像素级虚拟教师生成模型。
- 频率域知识自适应扩展的数据增强方法:提出了保留信息动态调整的基于频率域知识自适应扩展的数据增强方法。
- 性能提升:实验结果表明,该方法能有效提升目标分割网络的性能,与典型特征精炼自蒸馏方法相比,平均Fβ和mIoU分别提高了约1.5%和3.6%。
- 揭示CNN学习规则:揭示了卷积神经网络在训练过程中更倾向于学习低频信息的学习规则。
论文2:无教师的双重自蒸馏图知识蒸馏框架
- 无教师图自蒸馏(TGS)框架:提出一个不需要教师模型或GNNs的图知识蒸馏框架。
- 基于MLPs的隐式结构信息利用:在训练中利用图拓扑意识,但在推理中不依赖数据依赖性。
- 双重知识自蒸馏:包括特征级自蒸馏和标签级自蒸馏,分别从邻居节点到目标节点和从目标节点到邻居节点的知识蒸馏。
- 边采样策略:为了减少大规模图训练时的内存使用,采用边采样策略进行批量式自蒸馏。
创新点:
- 无需教师模型或GNNs:提出了一个在训练和推理阶段都不依赖教师模型或GNNs的框架。
- 基于MLPs的框架:完全基于MLPs,通过隐式使用结构信息指导双重知识自蒸馏。
- 推理效率:TGS框架在推理时比现有GNNs快75×-89×,比传统推理加速方法快16×-25×。
- 性能提升:在六个真实世界数据集上,TGS通过双重自蒸馏显著提升了普通MLPs的性能,平均提高了15.54%,并且超过了现有的图知识蒸馏算法。
论文3:DDK:提取领域知识以提升大型语言模型的效率
- 领域知识引导的采样策略:通过量化教师和学生模型在不同领域的表现差异来动态调整数据混合,以便在学生和教师模型性能差异较大的领域分配更多的计算资源。
- 领域差异因子构建:使用预训练的教师模型和正在训练的学生模型在多个领域的验证数据集上计算跨领域的性能差异,并据此构建领域差异因子。
- 因子平滑更新机制:为了增强知识蒸馏过程的稳定性和鲁棒性,提出了一个因子平滑更新策略,以平滑领域差异因子的更新。
- 整体优化:结合学生模型参数更新和领域差异因子更新,通过最小化教师和学生模型输出对数几率的差异来进行优化。
创新点:
- 领域特定数据混合研究:首次研究了领域特定数据混合对大型语言模型蒸馏的影响,并有效地将教师网络的领域知识转移到学生模型上。
- 因子平滑更新策略:提出了一种策略性地增强蒸馏过程对目标领域的关注,有效稳定了领域知识引导的采样过程,使蒸馏过程更加平滑。
- 多基准数据集的广泛实验:在多个基准数据集上进行了广泛的实验,证明了DDK框架的有效性和泛化能力,特别是在提升学生模型在不同领域的表现方面。
论文4:面向领域的k最近邻知识蒸馏在机器翻译中的应用
- 领域感知kNN数据存储构建:使用原始NMT模型对特定领域的训练集进行强制解码,获取多个上下文表示,并与相应的目标标记一起保存到领域感知kNN数据存储中。
- 领域感知教师模型微调:通过领域感知知识选择对kNN表示进行筛选,训练一个具有特定领域知识的教师模型。
- 领域感知适配器蒸馏:通过领域感知教师模型进一步提取领域相关知识,并将其从领域感知数据存储中蒸馏到适配器层。
创新点:
- 领域感知kNN-KD方法:提出了一种新的方法,通过在蒸馏过程中筛选出与领域相关的邻域知识进行学习,提高了学生模型的学习效率。
- 两步蒸馏过程:首先训练一个领域相关的教师模型,然后利用该模型将领域相关的知识蒸馏到适配器层,从而提高翻译性能。
- 专注于领域知识的学习:通过改进领域特定低频词的翻译,Dk-KD方法在多领域翻译任务中实现了性能的提升。
热门推荐
黄鹤楼下必打卡:赵师傅油饼包烧卖
户部巷必打卡!武汉地道美食大集合
山药和什么熬粥最养胃?山药养胃粥:探寻最佳搭配食材
常吃山药有哪些好处?山药的营养价值及功效
铁棍山药的6种美味烹饪方式,总有一款适合你
对交警处罚不服怎么办?行政复议程序详解
江西乐平聂家村的彩礼现象:高昂的礼金与当地的婚俗文化
成年人的清醒之路:拥抱边界,不要过度干涉他人的因果
武康路393号:黄兴故居里的百年记忆
哺乳期科学饮食指南:六大要点助力母婴健康
黄兴诞辰150周年:一位军事天才的革命征程
黄兴:从黄花岗到武昌,革命之路如何逆袭?
辛亥革命113周年:黄兴与孙中山的革命之路
黄兴:辛亥革命的幕后英雄
老年人睡眠不足的危害与改善方法
中医助眠秘籍:老年人如何告别失眠?
老年人失眠的心理密码:从原因到解决方案
祈福新邨社区:椅上瑜伽助老人改善睡眠
归芍地黄丸功效详解与实例分析
民事诉讼和解注意事项有哪些?
民事诉讼中当事人享有哪些诉讼权利与义务
全面解析:五大AI写作工具的功能、优势与适用场景对比分析
活血化瘀消肿止痛的中草药有哪些
加快伤口愈合且能和医生“对话”的智能绷带
电子行驶证详细申领步骤(出示+核验)
广州解禁“土狗”,提供本土犬种保护新思路
无源物联网技术引领下的家庭宠物行业溯源与健康管理新趋势
天价彩礼为何屡屡触动社会神经?
2024年江西彩礼新规:不超过多少钱?
马尾辫穿搭指南:从日常到派对全搞定!