BiFormer:具有双层路由注意力机制的视觉Transformer
创作时间:
作者:
@小白创作中心
BiFormer:具有双层路由注意力机制的视觉Transformer
引用
CSDN
1.
https://blog.csdn.net/2501_90186640/article/details/146145439
BiFormer是一种新型的视觉Transformer架构,其核心创新在于引入了双层路由注意力机制(BRA)。这种机制通过动态稀疏性优化计算资源分配,在保持高性能的同时显著降低了计算复杂度。本文将详细介绍BiFormer的设计理念、技术细节及其在多个视觉任务中的表现。
双层路由注意力机制(BRA)
核心思想
BRA通过两步实现动态稀疏性:
- 区域级路由:将输入特征图划分为S×S个区域,计算区域间亲和力矩阵,为每个区域保留前k个最相关区域。
- 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。
实现细节
- 区域划分与投影:输入特征图X∈RH×W×C被划分为S2个区域,经线性投影得到查询Q、键K、值V。
- 区域亲和力计算:通过区域级查询Qr和键Kr的矩阵乘法构建亲和力图Ar∈RS2×S2,并筛选前k个区域:Ir=topkIndex(Ar)。
- 令牌注意力:收集路由区域的键值对Kg和Vg,执行密集矩阵乘法:O=Attention(Q,Kg,Vg)+LCE(V)。其中,LCE(·)为局部上下文增强模块,采用深度卷积实现。
复杂度分析
BRA的总复杂度为:FLOPs=3HWC2+2S4C+2HWkC。当区域划分因子S取合适值时,复杂度可降至O((HW)4/3),显著低于普通注意力的O((HW)2)。
BiFormer架构设计
BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:
- BRA模块:实现动态稀疏注意力。
- 深度卷积:编码相对位置信息。
- MLP模块:扩展率为e的2层感知器。
模型变体:
模型 | 通道数 | 块数 | 参数量 (M) | FLOPs (G) |
---|---|---|---|---|
BiFormer-T | 64 | [2,2,8,2] | 13 | 2.2 |
BiFormer-S | 64 | [4,4,18,4] | 26 | 4.5 |
BiFormer-B | 96 | [4,4,18,4] | 57 | 9.8 |
实验结果
图像分类(ImageNet-1K)
BiFormer在相似计算量下优于Swin、CSWin等模型:
模型 | FLOPs (G) | Top-1 (%) |
---|---|---|
Swin-T | 4.5 | 81.3 |
CSWin-T | 4.5 | 82.7 |
BiFormer-T | 2.2 | 81.4 |
BiFormer-S | 4.5 | 83.8 |
BiFormer-B | 9.8 | 84.3 |
目标检测与实例分割(COCO)
BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:
骨干网络 | mAP (RetinaNet) | mAPb (Mask R-CNN) |
---|---|---|
Swin-T | 41.5 | 42.2 |
BiFormer-S | 45.9 | 47.8 |
语义分割(ADE20K)
骨干网络 | mIoU (UperNet) |
---|---|
CSWin-T | 49.3 |
BiFormer-S | 49.8 |
BiFormer-B | 51.0 |
消融实验
BRA有效性验证
对比不同注意力机制,BRA显著提升分类与分割性能:
注意力机制 | Top-1 (%) | mIoU (%) |
---|---|---|
移位窗口 | 81.3 | 41.5 |
可变形注意力 | 82.0 | 42.6 |
BRA | 82.7 | 44.8 |
架构设计影响
逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:
设计选择 | Top-1 (%) |
---|---|
基线(Swin-T) | 82.7 |
+ 更深布局 | 83.5 |
+ 卷积位置编码 | 83.8 |
可视化与讨论
注意力图分析
图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。
局限性
BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。
结论
BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。
附录
- 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
- 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
- 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。
热门推荐
科学施训激发体能训练新活力
如果不得不喝酒,怎么减少伤害?
儿童免疫球蛋白IgA偏低怎么办?
床头背景与墙布一体:打造协调美观的卧室空间
站桩和扎马步:武术内功与外功的完美结合
合伙人需要承担哪些民事责任
如何申请强制执行案件的重审:法律实务指南与操作流程
鼓式制动器结构与工作原理详解
北京启动第三代社保卡第二批换发,四大区300余万人可线上申领
50年产权房子到期了怎么办
《六姊妹》高热收官,为年代剧创作提供新解法
像保护孩子一样保护好候鸟——江西鄱阳湖国家级自然保护区保护越冬候鸟纪实
紫砂壶怎样保养才有包浆
千年琵琶万年筝,一把二胡拉一生 | 刘天华先生诞辰130周年
产品经理的毛利如何提升
字幕配音重叠怎么调?专业解决方案与实用案例
炒菜油烟竟是肺癌元凶?六大妙招破解厨房里的“隐形杀手”
宠物嘴下红点常见症状,了解护理要点
狗狗嘴巴周围发红的原因及处理方法
公开奖励社会举报,确保“校园餐”安全
中华白海豚频现珠海三灶海域 生态治理成效获“活指标”认可
汽车强制报废规定解读及法律适用分析
人工智能机器如何下棋
胃病禁吃食物名单
神话故事民间故事《哪吒闹海》绘本课件
如何在职场中有效举报不道德行为,维护职业道德与公正?
桂花又飘香@常见桂花类型及其香味成分!
利胆片是什么药物?功能、副作用与用药注意事项全解析
清华大学首创技术转移硕士项目:以人才培养推动科技成果转化
工商业加权电价科普及查询方法