问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ViT-Adapter:让普通ViT也能实现高精度密集预测

创作时间:
作者:
@小白创作中心

ViT-Adapter:让普通ViT也能实现高精度密集预测

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2401242

ViT-Adapter是一种创新的适配器框架,通过在普通Vision Transformer(ViT)中引入空间先验模块和特征交互机制,显著提升了其在密集预测任务(如物体检测、实例分割和语义分割)上的性能。这一研究不仅展示了ViT在多模态预训练方面的优势,还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。

背景与动机

近年来,Transformer架构在计算机视觉领域取得了突破性进展,特别是在物体检测和语义分割等密集预测任务中。然而,普通ViT由于缺乏视觉特定的归纳偏差,在这些任务上的表现往往不如专门设计的视觉Transformer(如Swin Transformer)。为了解决这一问题,研究者们提出了ViT-Adapter,通过引入免预训练的适配器模块,将视觉特定的归纳偏差注入到普通ViT中。

ViT-Adapter架构

ViT-Adapter的整体架构如图1所示,主要包括三个关键组件:

  1. 空间先验模块(SPM):这是一个基于卷积的模块,用于从输入图像中捕获局部空间特征。它生成三个不同分辨率(1/8、1/16、1/32)的空间特征图。

  2. 空间特征注入器:通过交叉注意力机制,将空间先验特征注入到ViT的Transformer编码器中,增强其对局部空间信息的感知能力。

  3. 多尺度特征提取器:用于从ViT的单尺度特征中重建多尺度特征,以满足密集预测任务的需求。


图1:ViT-Adapter的整体架构

核心技术创新

  • 空间先验模块:采用标准的卷积结构,从输入图像中提取不同分辨率的空间特征。这些特征被展平并连接,形成特征交互的输入。

  • 特征交互机制:通过交叉注意力机制,将空间先验特征注入到ViT的Transformer编码器中。具体来说,将空间特征作为键和值,ViT的特征作为查询,通过注意力机制实现特征融合。

  • 多尺度特征重建:通过堆叠多个多尺度特征提取器,从ViT的单尺度特征中重建层次化的多尺度特征,以满足密集预测任务的需求。

实验结果

研究者在多个基准数据集上评估了ViT-Adapter的性能,包括COCO和ADE20K。实验结果表明,ViT-Adapter在保持普通ViT灵活性的同时,能够实现与视觉特定Transformer相当甚至更好的性能。

  • 目标检测:在COCO数据集上,ViT-Adapter-B在Mask R-CNN框架下实现了49.6 box AP,比Swin-B高出1.0个点。在多模态预训练的加持下,ViT-Adapter-L在COCO test-dev上达到了60.9 box AP的先进水平。

  • 语义分割:在ADE20K数据集上,ViT-Adapter-B通过UperNet框架实现了49.7 MS mIoU,与Swin-B和Twins-SVT-L相当。在ImageNet-22K预训练下,ViT-Adapter-B达到了51.9 mIoU,超过Swin-B至少0.8 mIoU。

总结与展望

ViT-Adapter通过引入空间先验和特征交互机制,成功地将视觉特定的归纳偏差注入到普通ViT中,显著提升了其在密集预测任务上的性能。这一创新不仅展示了ViT在多模态预训练方面的优势,还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。未来,随着更多先进注意力机制的发展,ViT-Adapter有望进一步提升性能,推动Vision Transformer在计算机视觉领域的应用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号