问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%

创作时间:
作者:
@小白创作中心

融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%

引用
CSDN
1.
https://blog.csdn.net/weixin_42645636/article/details/138722451

近年来,深度学习领域的一个重要研究方向是将卷积神经网络(CNN)与Transformer相结合。这种结合方式旨在融合两者的优势:CNN擅长提取局部特征,而Transformer则在处理全局依赖关系方面表现出色。通过将这两种架构的优势相结合,研究者们开发出了多种创新模型,以实现更好的性能和效率。本文将介绍几种具有代表性的CNN+Transformer混合架构及其创新点。

Lite-Mono:轻量级单目深度估计模型

Lite-Mono是一个用于自监督单目深度估计的轻量级模型,它巧妙地结合了CNN和Transformer的优势。模型主要由两个模块组成:

  • 连续空洞卷积(CDC)模块:用于提取增强的多尺度局部特征。
  • 局部-全局特征交互(LGFI)模块:利用自注意力机制编码长距离的全局特征。

该模型在保持高精度的同时,将可训练参数减少了约80%。

LEFORMER:遥感图像湖泊提取

LEFormer是一种专门用于从遥感图像中准确提取湖泊的混合架构。它由三个主要模块组成:

  • CNN编码器:恢复局部空间信息,改善细节。
  • Transformer编码器:捕捉长距离依赖关系,获取全局特征。
  • 交叉编码器融合模块:融合局部和全局特征,生成湖泊掩码。

该模型在两个基准数据集上实现了SOTA性能,并通过轻量级Transformer设计降低了计算需求。

基于混合Transformer-CNN的图像压缩

这篇论文提出了一种高效的并行Transformer-CNN混合(TCM)块,结合了CNN的局部建模能力和Transformer的非局部建模能力。具体创新点包括:

  • TCM块:并行融合CNN和Transformer的能力。
  • SWAtten模块:基于Swin-Transformer的注意力模块,改进通道熵模型性能。

ScribFormer:基于Transformer的医学图像分割

ScribFormer是第一个应用于scribble监督医学图像分割的Transformer模型。其创新点在于:

  • Transformer分支:利用注意力权重来改善卷积特征和ACAMs的性能。
  • ACAM分支:通过通道和空间注意力调制,提高模型对复杂特征的理解能力。

这种架构通过融合CNN和Transformer的优势,实现了高质量的像素级分割结果。

总结

CNN与Transformer的结合为深度学习领域带来了新的突破,特别是在计算机视觉任务中。通过融合局部特征提取和全局依赖建模的能力,这些混合架构在保持运算效率的同时,显著提升了模型性能。未来,这种结合方式有望在更多领域展现出其独特优势。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号