融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%
融合Transformer与CNN,实现各任务性能巅峰,可训练参数减少80%
近年来,CNN(卷积神经网络)与Transformer的结合成为计算机视觉领域的热门研究方向。这种融合架构不仅能够保持运算效率,还能在多种任务中实现性能提升。本文将介绍4种具有代表性的CNN+Transformer模型实现方案,包括Lite-Mono、LEFORMER、Learned Image Compression和ScribFormer。
Lite-Mono:轻量级单目深度估计模型
方法:Lite-Mono采用了一种轻量级的CNN和Transformer组合架构。模型设计了两个关键模块:连续空洞卷积(CDC)模块用于提取多尺度局部特征,局部-全局特征交互(LGFI)模块则利用自注意力机制编码全局特征。
创新点:
提出了一种轻量级的自监督单目深度估计模型,结合了CNN和Transformer的优势。
通过CDC模块捕捉增强的多尺度局部特征,通过LGFI模块在通道维度上计算交叉协方差注意力,降低了计算复杂性。
实验表明,相比Monodepth2,Lite-Mono在保持精度的同时,可训练参数减少了80%左右。
LEFORMER:遥感图像湖泊提取模型
方法:LEFORMER是一种混合CNN-Transformer架构,专门用于遥感图像中的湖泊提取。模型包含三个主要模块:CNN编码器、Transformer编码器和交叉编码器融合模块。
创新点:
结合CNN和Transformer的优势,能够同时捕捉短程和长程依赖关系,获得强大的特征表示。
提出轻量级Transformer编码器,降低了模型的计算和参数需求,同时保持高性能。
通过交叉编码器融合模块将局部和全局特征融合,实现了高准确性和低计算成本的平衡。
Learned Image Compression:基于Transformer-CNN的图像压缩
方法:该研究提出了一种并行Transformer-CNN混合(TCM)块,将CNN的局部建模能力和Transformer的非局部建模能力相结合。同时,提出了一种基于Swin-Transformer的注意力模块来改进通道熵模型的性能。
创新点:
设计了高效的TCM块,有效结合了CNN和Transformer的优势。
提出SWAtten模块,通过Swin-Transformer的注意力机制改进通道熵模型,提高了压缩效率和质量。
ScribFormer:基于Transformer的医学图像分割
方法:ScribFormer是首个使用Transformer的scribble监督医学图像分割模型。模型通过融合CNN和Transformer的局部特征和全局表示,并使用注意力引导的类别激活图(ACAM)分支,实现了高质量的像素级分割结果。
创新点:
首次将Transformer应用于scribble监督的医学图像分割任务。
通过Transformer分支的注意力权重来优化卷积特征和ACAMs的性能。
利用通道和空间注意力调制,提高了模型对复杂特征相互连接的理解能力。
总结
CNN与Transformer的结合为计算机视觉领域带来了新的突破。通过融合两者的优点,研究人员能够设计出既保持运算效率又提升性能的模型。从单目深度估计到遥感图像分析,再到医学图像分割,这种混合架构展现了广泛的应用前景。