问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

BiFormer:具有双层路由注意力机制的视觉Transformer

创作时间:
作者:
@小白创作中心

BiFormer:具有双层路由注意力机制的视觉Transformer

引用
CSDN
1.
https://blog.csdn.net/2501_90186640/article/details/146145439

BiFormer是一种新型的视觉Transformer架构,其核心创新在于引入了双层路由注意力机制(BRA)。这种机制通过动态稀疏性优化计算资源分配,在保持高性能的同时显著降低了计算复杂度。本文将详细介绍BiFormer的设计理念、技术细节及其在多个视觉任务中的表现。

双层路由注意力机制(BRA)

核心思想

BRA通过两步实现动态稀疏性:

  1. 区域级路由:将输入特征图划分为S×S个区域,计算区域间亲和力矩阵,为每个区域保留前k个最相关区域。
  2. 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。

实现细节

  1. 区域划分与投影:输入特征图X∈RH×W×C被划分为S2个区域,经线性投影得到查询Q、键K、值V。
  2. 区域亲和力计算:通过区域级查询Qr和键Kr的矩阵乘法构建亲和力图Ar∈RS2×S2,并筛选前k个区域:Ir=topkIndex(Ar)。
  3. 令牌注意力:收集路由区域的键值对Kg和Vg,执行密集矩阵乘法:O=Attention(Q,Kg,Vg)+LCE(V)。其中,LCE(·)为局部上下文增强模块,采用深度卷积实现。

复杂度分析

BRA的总复杂度为:FLOPs=3HWC2+2S4C+2HWkC。当区域划分因子S取合适值时,复杂度可降至O((HW)4/3),显著低于普通注意力的O((HW)2)。

BiFormer架构设计

BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:

  1. BRA模块:实现动态稀疏注意力。
  2. 深度卷积:编码相对位置信息。
  3. MLP模块:扩展率为e的2层感知器。

模型变体

模型
通道数
块数
参数量 (M)
FLOPs (G)
BiFormer-T
64
[2,2,8,2]
13
2.2
BiFormer-S
64
[4,4,18,4]
26
4.5
BiFormer-B
96
[4,4,18,4]
57
9.8

实验结果

图像分类(ImageNet-1K)

BiFormer在相似计算量下优于Swin、CSWin等模型:

模型
FLOPs (G)
Top-1 (%)
Swin-T
4.5
81.3
CSWin-T
4.5
82.7
BiFormer-T
2.2
81.4
BiFormer-S
4.5
83.8
BiFormer-B
9.8
84.3

目标检测与实例分割(COCO)

BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:

骨干网络
mAP (RetinaNet)
mAPb (Mask R-CNN)
Swin-T
41.5
42.2
BiFormer-S
45.9
47.8

语义分割(ADE20K)

骨干网络
mIoU (UperNet)
CSWin-T
49.3
BiFormer-S
49.8
BiFormer-B
51.0

消融实验

BRA有效性验证

对比不同注意力机制,BRA显著提升分类与分割性能:

注意力机制
Top-1 (%)
mIoU (%)
移位窗口
81.3
41.5
可变形注意力
82.0
42.6
BRA
82.7
44.8

架构设计影响

逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:

设计选择
Top-1 (%)
基线(Swin-T)
82.7
+ 更深布局
83.5
+ 卷积位置编码
83.8

可视化与讨论

注意力图分析

图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。

局限性

BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。

结论

BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。

附录

  • 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
  • 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
  • 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。

代码地址:https://github.com/rayleizhu/BiFormer

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号