效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
创作时间:
作者:
@小白创作中心
效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本
引用
CSDN
1.
https://m.blog.csdn.net/aizhijie001/article/details/144104898
频域知识蒸馏是一种将频域分析与知识蒸馏相结合的技术,它通过提取和传递频域特征来提升模型性能。这种方法在图像生成、时序信号分类等领域显示出了其有效性,尤其是在提升学生模型的泛化能力和分类精度方面。此外,频域知识蒸馏通过关注高频成分和语义信息,能够在模型训练过程中更有效地传递关键特征,从而在密集预测任务中提高性能。这种技术的应用展示了频域分析在模型优化和知识传递中的潜力。
论文1:通过频率域知识增强的自蒸馏目标分割方法
- 构建目标分割网络:高效整合多级特征构建目标分割网络。
- 像素级虚拟教师生成模型:提出像素级虚拟教师生成模型,通过自蒸馏学习将像素级知识传递给目标分割网络,提升泛化能力。
- 频率域知识自适应生成方法:提出基于频率域知识自适应扩展的数据增强方法,使用可微分量化操作符动态调整可学习的像素级量化表。
- 卷积神经网络学习规则探讨:探讨了卷积神经网络在学习过程中对频率域知识的偏好。
创新点:
- 像素级虚拟教师生成模型:构建了无需复杂辅助分支结构和匹配策略的像素级虚拟教师生成模型。
- 频率域知识自适应扩展的数据增强方法:提出了保留信息动态调整的基于频率域知识自适应扩展的数据增强方法。
- 性能提升:实验结果表明,该方法能有效提升目标分割网络的性能,与典型特征精炼自蒸馏方法相比,平均Fβ和mIoU分别提高了约1.5%和3.6%。
- 揭示CNN学习规则:揭示了卷积神经网络在训练过程中更倾向于学习低频信息的学习规则。
论文2:无教师的双重自蒸馏图知识蒸馏框架
- 无教师图自蒸馏(TGS)框架:提出一个不需要教师模型或GNNs的图知识蒸馏框架。
- 基于MLPs的隐式结构信息利用:在训练中利用图拓扑意识,但在推理中不依赖数据依赖性。
- 双重知识自蒸馏:包括特征级自蒸馏和标签级自蒸馏,分别从邻居节点到目标节点和从目标节点到邻居节点的知识蒸馏。
- 边采样策略:为了减少大规模图训练时的内存使用,采用边采样策略进行批量式自蒸馏。
创新点:
- 无需教师模型或GNNs:提出了一个在训练和推理阶段都不依赖教师模型或GNNs的框架。
- 基于MLPs的框架:完全基于MLPs,通过隐式使用结构信息指导双重知识自蒸馏。
- 推理效率:TGS框架在推理时比现有GNNs快75×-89×,比传统推理加速方法快16×-25×。
- 性能提升:在六个真实世界数据集上,TGS通过双重自蒸馏显著提升了普通MLPs的性能,平均提高了15.54%,并且超过了现有的图知识蒸馏算法。
论文3:DDK:提取领域知识以提升大型语言模型的效率
- 领域知识引导的采样策略:通过量化教师和学生模型在不同领域的表现差异来动态调整数据混合,以便在学生和教师模型性能差异较大的领域分配更多的计算资源。
- 领域差异因子构建:使用预训练的教师模型和正在训练的学生模型在多个领域的验证数据集上计算跨领域的性能差异,并据此构建领域差异因子。
- 因子平滑更新机制:为了增强知识蒸馏过程的稳定性和鲁棒性,提出了一个因子平滑更新策略,以平滑领域差异因子的更新。
- 整体优化:结合学生模型参数更新和领域差异因子更新,通过最小化教师和学生模型输出对数几率的差异来进行优化。
创新点:
- 领域特定数据混合研究:首次研究了领域特定数据混合对大型语言模型蒸馏的影响,并有效地将教师网络的领域知识转移到学生模型上。
- 因子平滑更新策略:提出了一种策略性地增强蒸馏过程对目标领域的关注,有效稳定了领域知识引导的采样过程,使蒸馏过程更加平滑。
- 多基准数据集的广泛实验:在多个基准数据集上进行了广泛的实验,证明了DDK框架的有效性和泛化能力,特别是在提升学生模型在不同领域的表现方面。
论文4:面向领域的k最近邻知识蒸馏在机器翻译中的应用
- 领域感知kNN数据存储构建:使用原始NMT模型对特定领域的训练集进行强制解码,获取多个上下文表示,并与相应的目标标记一起保存到领域感知kNN数据存储中。
- 领域感知教师模型微调:通过领域感知知识选择对kNN表示进行筛选,训练一个具有特定领域知识的教师模型。
- 领域感知适配器蒸馏:通过领域感知教师模型进一步提取领域相关知识,并将其从领域感知数据存储中蒸馏到适配器层。
创新点:
- 领域感知kNN-KD方法:提出了一种新的方法,通过在蒸馏过程中筛选出与领域相关的邻域知识进行学习,提高了学生模型的学习效率。
- 两步蒸馏过程:首先训练一个领域相关的教师模型,然后利用该模型将领域相关的知识蒸馏到适配器层,从而提高翻译性能。
- 专注于领域知识的学习:通过改进领域特定低频词的翻译,Dk-KD方法在多领域翻译任务中实现了性能的提升。
热门推荐
孕妇能吃木瓜吗?从营养到风险的全面解析
回顾2024,展望2025——在丰饶的生活现场生发诗意
基于ARIMA回归模型的股票价格预测
丙午是丙火还是午火的命理含义
沙特阿拉伯全年气温情况及四季气候特点
沙特阿拉伯全年气温情况及四季气候特点
乙基香兰素在奶粉中的作用及安全性解析
眼球变成棕色的原因有哪些?
喝矿泉水好还是白开水好
大数据分析:在职MBA学员毕业3年薪资涨幅TOP5行业
出口美国必看:完整指南助您顺利通关
产品出口美国要做哪些认证?需要注意哪些问题和事项?
在北京,哪些人需要办理健康证?如何办理?攻略来了!
詹姆斯的强壮身体与无大伤病的职业生涯
北海公园:一座都城的成长见证
甲状腺未扪及肿大是什么意思
高考成绩真实性与法律保障:高考成绩法律规范及其应用
茉莉花怎么养?从基础到进阶的保姆级养护教程
茉莉花叶子发黄原因及解决办法
虎丘主要景点
乳胶枕含有毒物质,不仅过敏还致癌?乳胶枕危害有多大?真相来了
准备好承受来自大筒木的震撼力量吧!
湿气重肥胖的表现
李渊并未娶杨广的老婆:历史真相揭秘
李渊与杨广:隋朝末年的皇位之争
碳酸钠生产过程中的职业病:钠盐中毒与预防措施
支气管炎需要忌口哪些食物和水果
冬季保护呼吸道 寒冬养肺5注意
冬日火锅健康指南:如何吃得既辣又不伤身?
纽约大学计算机工程硕士项目详解