效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
创作时间:
作者:
@小白创作中心
效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
引用
CSDN
1.
https://m.blog.csdn.net/aizhijie001/article/details/144104898
频域知识蒸馏是一种将频域分析与知识蒸馏相结合的技术,它通过提取和传递频域特征来提升模型性能。这种方法在图像生成、时序信号分类等领域显示出了其有效性,尤其是在提升学生模型的泛化能力和分类精度方面。此外,频域知识蒸馏通过关注高频成分和语义信息,能够在模型训练过程中更有效地传递关键特征,从而在密集预测任务中提高性能。这种技术的应用展示了频域分析在模型优化和知识传递中的潜力。
论文1:通过频率域知识增强的自蒸馏目标分割方法
- 构建目标分割网络:高效整合多级特征构建目标分割网络。
- 像素级虚拟教师生成模型:提出像素级虚拟教师生成模型,通过自蒸馏学习将像素级知识传递给目标分割网络,提升泛化能力。
- 频率域知识自适应生成方法:提出基于频率域知识自适应扩展的数据增强方法,使用可微分量化操作符动态调整可学习的像素级量化表。
- 卷积神经网络学习规则探讨:探讨了卷积神经网络在学习过程中对频率域知识的偏好。
创新点:
- 像素级虚拟教师生成模型:构建了无需复杂辅助分支结构和匹配策略的像素级虚拟教师生成模型。
- 频率域知识自适应扩展的数据增强方法:提出了保留信息动态调整的基于频率域知识自适应扩展的数据增强方法。
- 性能提升:实验结果表明,该方法能有效提升目标分割网络的性能,与典型特征精炼自蒸馏方法相比,平均Fβ和mIoU分别提高了约1.5%和3.6%。
- 揭示CNN学习规则:揭示了卷积神经网络在训练过程中更倾向于学习低频信息的学习规则。
论文2:无教师的双重自蒸馏图知识蒸馏框架
- 无教师图自蒸馏(TGS)框架:提出一个不需要教师模型或GNNs的图知识蒸馏框架。
- 基于MLPs的隐式结构信息利用:在训练中利用图拓扑意识,但在推理中不依赖数据依赖性。
- 双重知识自蒸馏:包括特征级自蒸馏和标签级自蒸馏,分别从邻居节点到目标节点和从目标节点到邻居节点的知识蒸馏。
- 边采样策略:为了减少大规模图训练时的内存使用,采用边采样策略进行批量式自蒸馏。
创新点:
- 无需教师模型或GNNs:提出了一个在训练和推理阶段都不依赖教师模型或GNNs的框架。
- 基于MLPs的框架:完全基于MLPs,通过隐式使用结构信息指导双重知识自蒸馏。
- 推理效率:TGS框架在推理时比现有GNNs快75×-89×,比传统推理加速方法快16×-25×。
- 性能提升:在六个真实世界数据集上,TGS通过双重自蒸馏显著提升了普通MLPs的性能,平均提高了15.54%,并且超过了现有的图知识蒸馏算法。
论文3:DDK:提取领域知识以提升大型语言模型的效率
- 领域知识引导的采样策略:通过量化教师和学生模型在不同领域的表现差异来动态调整数据混合,以便在学生和教师模型性能差异较大的领域分配更多的计算资源。
- 领域差异因子构建:使用预训练的教师模型和正在训练的学生模型在多个领域的验证数据集上计算跨领域的性能差异,并据此构建领域差异因子。
- 因子平滑更新机制:为了增强知识蒸馏过程的稳定性和鲁棒性,提出了一个因子平滑更新策略,以平滑领域差异因子的更新。
- 整体优化:结合学生模型参数更新和领域差异因子更新,通过最小化教师和学生模型输出对数几率的差异来进行优化。
创新点:
- 领域特定数据混合研究:首次研究了领域特定数据混合对大型语言模型蒸馏的影响,并有效地将教师网络的领域知识转移到学生模型上。
- 因子平滑更新策略:提出了一种策略性地增强蒸馏过程对目标领域的关注,有效稳定了领域知识引导的采样过程,使蒸馏过程更加平滑。
- 多基准数据集的广泛实验:在多个基准数据集上进行了广泛的实验,证明了DDK框架的有效性和泛化能力,特别是在提升学生模型在不同领域的表现方面。
论文4:面向领域的k最近邻知识蒸馏在机器翻译中的应用
- 领域感知kNN数据存储构建:使用原始NMT模型对特定领域的训练集进行强制解码,获取多个上下文表示,并与相应的目标标记一起保存到领域感知kNN数据存储中。
- 领域感知教师模型微调:通过领域感知知识选择对kNN表示进行筛选,训练一个具有特定领域知识的教师模型。
- 领域感知适配器蒸馏:通过领域感知教师模型进一步提取领域相关知识,并将其从领域感知数据存储中蒸馏到适配器层。
创新点:
- 领域感知kNN-KD方法:提出了一种新的方法,通过在蒸馏过程中筛选出与领域相关的邻域知识进行学习,提高了学生模型的学习效率。
- 两步蒸馏过程:首先训练一个领域相关的教师模型,然后利用该模型将领域相关的知识蒸馏到适配器层,从而提高翻译性能。
- 专注于领域知识的学习:通过改进领域特定低频词的翻译,Dk-KD方法在多领域翻译任务中实现了性能的提升。
热门推荐
聚焦2024年气候变化绿皮书:应对气候变化形势分析与展望
ESFP的爱情:非常专一带来高能量和快乐,花钱如流水缺乏财务规划
喜马拉雅小熊猫:温顺可爱的“迷你”熊科动物
笑傲江湖里,东方不败霸道无情,因何却对任盈盈格外好
波动与离散:能量为何以量子形式存在?能量不连续性的起源
八百里清江美如画——深度游览湖北清江画廊全攻略
如何开通邮箱IMAP服务
枫蓼肠胃康颗粒成人吃几袋?用法用量全解析
抛物线的定义、标准方程及其几何性质
歌曲版权怎么申请知识产权
2025黑龙江汽车置换补贴新政出炉,云闪付申请攻略来啦!
家中贴“福”字,最好不要超过2个,太多反而影响风水,为什么?
恩施清江画廊自驾游全攻略:必去景点与旅行贴士
如何建立自信——为成功做好准备
常用分辨率有哪些?如何选择最适合我的设备?
鼻塞感冒时,这些饮料可能有助于缓解症状
虚拟机的鼠标如何退出
蓝光危害:如何保护眼睛免受伤害?
虚开发票是什么?类型、后果与防范措施全解析
走读街巷,看一座城的"崭新打开"
痛风病人能否饮酒
弧度造句更多
加密货币为什么值钱?深度解析加密货币的价值来源
Deepseek服务器部署对SSD的要求
糖化血红蛋白6.4%意味着什么?医生专业解读及建议
怎么解除宽带网速限制?专家教你几招快速恢复满速体验
如何在仪表盘上查看油耗?如何优化油耗表现?
刻舟求剑的故事
新对比红碧玉与老皮:哪种材料更适合制作手工艺品?
卫星基本知识