ViT-Adapter：让普通ViT也能实现高精度密集预测

创作时间:

作者:

@小白创作中心

ViT-Adapter：让普通ViT也能实现高精度密集预测

引用

来源

https://cloud.tencent.com/developer/article/2401242

ViT-Adapter是一种创新的适配器框架，通过在普通Vision Transformer（ViT）中引入空间先验模块和特征交互机制，显著提升了其在密集预测任务（如物体检测、实例分割和语义分割）上的性能。这一研究不仅展示了ViT在多模态预训练方面的优势，还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。

背景与动机

近年来，Transformer架构在计算机视觉领域取得了突破性进展，特别是在物体检测和语义分割等密集预测任务中。然而，普通ViT由于缺乏视觉特定的归纳偏差，在这些任务上的表现往往不如专门设计的视觉Transformer（如Swin Transformer）。为了解决这一问题，研究者们提出了ViT-Adapter，通过引入免预训练的适配器模块，将视觉特定的归纳偏差注入到普通ViT中。

ViT-Adapter架构

ViT-Adapter的整体架构如图1所示，主要包括三个关键组件：

空间先验模块（SPM）：这是一个基于卷积的模块，用于从输入图像中捕获局部空间特征。它生成三个不同分辨率（1/8、1/16、1/32）的空间特征图。
空间特征注入器：通过交叉注意力机制，将空间先验特征注入到ViT的Transformer编码器中，增强其对局部空间信息的感知能力。
多尺度特征提取器：用于从ViT的单尺度特征中重建多尺度特征，以满足密集预测任务的需求。

图1：ViT-Adapter的整体架构

核心技术创新

空间先验模块：采用标准的卷积结构，从输入图像中提取不同分辨率的空间特征。这些特征被展平并连接，形成特征交互的输入。
特征交互机制：通过交叉注意力机制，将空间先验特征注入到ViT的Transformer编码器中。具体来说，将空间特征作为键和值，ViT的特征作为查询，通过注意力机制实现特征融合。
多尺度特征重建：通过堆叠多个多尺度特征提取器，从ViT的单尺度特征中重建层次化的多尺度特征，以满足密集预测任务的需求。

实验结果

研究者在多个基准数据集上评估了ViT-Adapter的性能，包括COCO和ADE20K。实验结果表明，ViT-Adapter在保持普通ViT灵活性的同时，能够实现与视觉特定Transformer相当甚至更好的性能。

目标检测：在COCO数据集上，ViT-Adapter-B在Mask R-CNN框架下实现了49.6 box AP，比Swin-B高出1.0个点。在多模态预训练的加持下，ViT-Adapter-L在COCO test-dev上达到了60.9 box AP的先进水平。
语义分割：在ADE20K数据集上，ViT-Adapter-B通过UperNet框架实现了49.7 MS mIoU，与Swin-B和Twins-SVT-L相当。在ImageNet-22K预训练下，ViT-Adapter-B达到了51.9 mIoU，超过Swin-B至少0.8 mIoU。

总结与展望

ViT-Adapter通过引入空间先验和特征交互机制，成功地将视觉特定的归纳偏差注入到普通ViT中，显著提升了其在密集预测任务上的性能。这一创新不仅展示了ViT在多模态预训练方面的优势，还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。未来，随着更多先进注意力机制的发展，ViT-Adapter有望进一步提升性能，推动Vision Transformer在计算机视觉领域的应用。

热门推荐

郑钦文、王欣瑜过关，中国女网两人晋级迈阿密公开赛32强