BiFormer:具有双层路由注意力机制的视觉Transformer
创作时间:
作者:
@小白创作中心
BiFormer:具有双层路由注意力机制的视觉Transformer
引用
CSDN
1.
https://blog.csdn.net/2501_90186640/article/details/146145439
BiFormer是一种新型的视觉Transformer架构,其核心创新在于引入了双层路由注意力机制(BRA)。这种机制通过动态稀疏性优化计算资源分配,在保持高性能的同时显著降低了计算复杂度。本文将详细介绍BiFormer的设计理念、技术细节及其在多个视觉任务中的表现。
双层路由注意力机制(BRA)
核心思想
BRA通过两步实现动态稀疏性:
- 区域级路由:将输入特征图划分为S×S个区域,计算区域间亲和力矩阵,为每个区域保留前k个最相关区域。
- 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。
实现细节
- 区域划分与投影:输入特征图X∈RH×W×C被划分为S2个区域,经线性投影得到查询Q、键K、值V。
- 区域亲和力计算:通过区域级查询Qr和键Kr的矩阵乘法构建亲和力图Ar∈RS2×S2,并筛选前k个区域:Ir=topkIndex(Ar)。
- 令牌注意力:收集路由区域的键值对Kg和Vg,执行密集矩阵乘法:O=Attention(Q,Kg,Vg)+LCE(V)。其中,LCE(·)为局部上下文增强模块,采用深度卷积实现。
复杂度分析
BRA的总复杂度为:FLOPs=3HWC2+2S4C+2HWkC。当区域划分因子S取合适值时,复杂度可降至O((HW)4/3),显著低于普通注意力的O((HW)2)。
BiFormer架构设计
BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:
- BRA模块:实现动态稀疏注意力。
- 深度卷积:编码相对位置信息。
- MLP模块:扩展率为e的2层感知器。
模型变体:
模型 | 通道数 | 块数 | 参数量 (M) | FLOPs (G) |
|---|---|---|---|---|
BiFormer-T | 64 | [2,2,8,2] | 13 | 2.2 |
BiFormer-S | 64 | [4,4,18,4] | 26 | 4.5 |
BiFormer-B | 96 | [4,4,18,4] | 57 | 9.8 |
实验结果
图像分类(ImageNet-1K)
BiFormer在相似计算量下优于Swin、CSWin等模型:
模型 | FLOPs (G) | Top-1 (%) |
|---|---|---|
Swin-T | 4.5 | 81.3 |
CSWin-T | 4.5 | 82.7 |
BiFormer-T | 2.2 | 81.4 |
BiFormer-S | 4.5 | 83.8 |
BiFormer-B | 9.8 | 84.3 |
目标检测与实例分割(COCO)
BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:
骨干网络 | mAP (RetinaNet) | mAPb (Mask R-CNN) |
|---|---|---|
Swin-T | 41.5 | 42.2 |
BiFormer-S | 45.9 | 47.8 |
语义分割(ADE20K)
骨干网络 | mIoU (UperNet) |
|---|---|
CSWin-T | 49.3 |
BiFormer-S | 49.8 |
BiFormer-B | 51.0 |
消融实验
BRA有效性验证
对比不同注意力机制,BRA显著提升分类与分割性能:
注意力机制 | Top-1 (%) | mIoU (%) |
|---|---|---|
移位窗口 | 81.3 | 41.5 |
可变形注意力 | 82.0 | 42.6 |
BRA | 82.7 | 44.8 |
架构设计影响
逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:
设计选择 | Top-1 (%) |
|---|---|
基线(Swin-T) | 82.7 |
+ 更深布局 | 83.5 |
+ 卷积位置编码 | 83.8 |
可视化与讨论
注意力图分析
图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。
局限性
BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。
结论
BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。
附录
- 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
- 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
- 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。
热门推荐
《小镇大厨》:环游世界的美食帝国,从这里开始!
探秘连州地下河:岭南第一河的奇幻之旅
牛鱼嘴原始生态游:打卡岭南山水秘境
虾滑的营养价值和食用方法
人到中年,真正的夫妻关系维护,靠的不是爱,是这六样东西
开封:一座重现《东京梦华录》的千年古都
从《东京梦华录》到文旅融合:开封宋文化的传承与创新
生酮饮食与健康:医生解答
生酮饮食再掀热潮!揭示酮体代谢新机制,华人科学家团队攻克肥胖难题
高血压患者如何科学锻炼?妙佑医疗国际&张剑梅医生来支招!
心血管内科专家刘继成:科学管理高血压,守护心脏健康
盐酸贝凡洛尔片:高血压治疗的新选择
探秘崂山太清宫:秦始皇寻仙地揭秘
开封万岁山大宋武侠城:六一亲子游新宠!
糖尿病药物治疗的基本原理
降低餐后血糖,不良反应少的5个口服降糖药,一文总结
如何正确选择和穿着静脉曲张袜?
秋冬长筒袜搭配指南:从材质选择到流行搭配
老北京炸酱面
开封必打卡:灌汤包&鸡血汤,你更爱哪个?
开封府&清明上河园:古都探秘之旅
开封一日游:包公审案+宋朝穿越之旅
广州陈家祠,一个令人惊叹的岭南传统建筑群
《我的世界》账号丢失?官方推荐找回攻略来了!
电动汽车“不争气”,欧洲“2035禁燃令”恐难实现
《我的世界》服务器改密技巧大揭秘!
冬天南京旅游攻略,冬天南京旅游攻略景点必去
冬日暖心大锅菜:北方人的家宴必备!
大锅菜必学:猪肉和鸡肉处理技巧
幼儿园大锅菜:如何做到既美味又营养?