ViT-Adapter:让普通ViT也能实现高精度密集预测
ViT-Adapter:让普通ViT也能实现高精度密集预测
ViT-Adapter是一种创新的适配器框架,通过在普通Vision Transformer(ViT)中引入空间先验模块和特征交互机制,显著提升了其在密集预测任务(如物体检测、实例分割和语义分割)上的性能。这一研究不仅展示了ViT在多模态预训练方面的优势,还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。
背景与动机
近年来,Transformer架构在计算机视觉领域取得了突破性进展,特别是在物体检测和语义分割等密集预测任务中。然而,普通ViT由于缺乏视觉特定的归纳偏差,在这些任务上的表现往往不如专门设计的视觉Transformer(如Swin Transformer)。为了解决这一问题,研究者们提出了ViT-Adapter,通过引入免预训练的适配器模块,将视觉特定的归纳偏差注入到普通ViT中。
ViT-Adapter架构
ViT-Adapter的整体架构如图1所示,主要包括三个关键组件:
空间先验模块(SPM):这是一个基于卷积的模块,用于从输入图像中捕获局部空间特征。它生成三个不同分辨率(1/8、1/16、1/32)的空间特征图。
空间特征注入器:通过交叉注意力机制,将空间先验特征注入到ViT的Transformer编码器中,增强其对局部空间信息的感知能力。
多尺度特征提取器:用于从ViT的单尺度特征中重建多尺度特征,以满足密集预测任务的需求。
图1:ViT-Adapter的整体架构
核心技术创新
空间先验模块:采用标准的卷积结构,从输入图像中提取不同分辨率的空间特征。这些特征被展平并连接,形成特征交互的输入。
特征交互机制:通过交叉注意力机制,将空间先验特征注入到ViT的Transformer编码器中。具体来说,将空间特征作为键和值,ViT的特征作为查询,通过注意力机制实现特征融合。
多尺度特征重建:通过堆叠多个多尺度特征提取器,从ViT的单尺度特征中重建层次化的多尺度特征,以满足密集预测任务的需求。
实验结果
研究者在多个基准数据集上评估了ViT-Adapter的性能,包括COCO和ADE20K。实验结果表明,ViT-Adapter在保持普通ViT灵活性的同时,能够实现与视觉特定Transformer相当甚至更好的性能。
目标检测:在COCO数据集上,ViT-Adapter-B在Mask R-CNN框架下实现了49.6 box AP,比Swin-B高出1.0个点。在多模态预训练的加持下,ViT-Adapter-L在COCO test-dev上达到了60.9 box AP的先进水平。
语义分割:在ADE20K数据集上,ViT-Adapter-B通过UperNet框架实现了49.7 MS mIoU,与Swin-B和Twins-SVT-L相当。在ImageNet-22K预训练下,ViT-Adapter-B达到了51.9 mIoU,超过Swin-B至少0.8 mIoU。
总结与展望
ViT-Adapter通过引入空间先验和特征交互机制,成功地将视觉特定的归纳偏差注入到普通ViT中,显著提升了其在密集预测任务上的性能。这一创新不仅展示了ViT在多模态预训练方面的优势,还提供了一种灵活且有效的方法来弥补其在密集预测任务上的不足。未来,随着更多先进注意力机制的发展,ViT-Adapter有望进一步提升性能,推动Vision Transformer在计算机视觉领域的应用。