BiFormer:具有双层路由注意力机制的视觉Transformer
创作时间:
作者:
@小白创作中心
BiFormer:具有双层路由注意力机制的视觉Transformer
引用
CSDN
1.
https://blog.csdn.net/2501_90186640/article/details/146145439
BiFormer是一种新型的视觉Transformer架构,其核心创新在于引入了双层路由注意力机制(BRA)。这种机制通过动态稀疏性优化计算资源分配,在保持高性能的同时显著降低了计算复杂度。本文将详细介绍BiFormer的设计理念、技术细节及其在多个视觉任务中的表现。
双层路由注意力机制(BRA)
核心思想
BRA通过两步实现动态稀疏性:
- 区域级路由:将输入特征图划分为S×S个区域,计算区域间亲和力矩阵,为每个区域保留前k个最相关区域。
- 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。
实现细节
- 区域划分与投影:输入特征图X∈RH×W×C被划分为S2个区域,经线性投影得到查询Q、键K、值V。
- 区域亲和力计算:通过区域级查询Qr和键Kr的矩阵乘法构建亲和力图Ar∈RS2×S2,并筛选前k个区域:Ir=topkIndex(Ar)。
- 令牌注意力:收集路由区域的键值对Kg和Vg,执行密集矩阵乘法:O=Attention(Q,Kg,Vg)+LCE(V)。其中,LCE(·)为局部上下文增强模块,采用深度卷积实现。
复杂度分析
BRA的总复杂度为:FLOPs=3HWC2+2S4C+2HWkC。当区域划分因子S取合适值时,复杂度可降至O((HW)4/3),显著低于普通注意力的O((HW)2)。
BiFormer架构设计
BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:
- BRA模块:实现动态稀疏注意力。
- 深度卷积:编码相对位置信息。
- MLP模块:扩展率为e的2层感知器。
模型变体:
模型 | 通道数 | 块数 | 参数量 (M) | FLOPs (G) |
---|---|---|---|---|
BiFormer-T | 64 | [2,2,8,2] | 13 | 2.2 |
BiFormer-S | 64 | [4,4,18,4] | 26 | 4.5 |
BiFormer-B | 96 | [4,4,18,4] | 57 | 9.8 |
实验结果
图像分类(ImageNet-1K)
BiFormer在相似计算量下优于Swin、CSWin等模型:
模型 | FLOPs (G) | Top-1 (%) |
---|---|---|
Swin-T | 4.5 | 81.3 |
CSWin-T | 4.5 | 82.7 |
BiFormer-T | 2.2 | 81.4 |
BiFormer-S | 4.5 | 83.8 |
BiFormer-B | 9.8 | 84.3 |
目标检测与实例分割(COCO)
BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:
骨干网络 | mAP (RetinaNet) | mAPb (Mask R-CNN) |
---|---|---|
Swin-T | 41.5 | 42.2 |
BiFormer-S | 45.9 | 47.8 |
语义分割(ADE20K)
骨干网络 | mIoU (UperNet) |
---|---|
CSWin-T | 49.3 |
BiFormer-S | 49.8 |
BiFormer-B | 51.0 |
消融实验
BRA有效性验证
对比不同注意力机制,BRA显著提升分类与分割性能:
注意力机制 | Top-1 (%) | mIoU (%) |
---|---|---|
移位窗口 | 81.3 | 41.5 |
可变形注意力 | 82.0 | 42.6 |
BRA | 82.7 | 44.8 |
架构设计影响
逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:
设计选择 | Top-1 (%) |
---|---|
基线(Swin-T) | 82.7 |
+ 更深布局 | 83.5 |
+ 卷积位置编码 | 83.8 |
可视化与讨论
注意力图分析
图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。
局限性
BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。
结论
BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。
附录
- 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
- 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
- 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。
热门推荐
一勺猪油等于五副药?常吃猪油是养生还是有害?一次性告诉您真相
警惕!你的网络机顶盒可能已被黑客盯上
电视盒子连不上WiFi?这些妙招你一定要知道!
双十一抢购后,别忘了给你的机顶盒“打个补丁”!
隋唐三教鼎立:佛教如何影响儒学?
佛教如何改变中国传统文化:儒释道融合之路
宋明理学中的佛学智慧:从张载到朱熹
佛教如何融入中国传统文化?
解酒喝什么?这些饮品和食物帮你缓解宿醉不适
【重庆疾控权威解读】春节聚餐,饮酒健康不容忽视!看看专家怎么说
创新加密技术为智能汽车信息安全保驾护航
Rijndael算法背后的秘密:AES如何守护现代信息安全?
AES加密算法背后的数学魔法揭秘
彩排现场:“尊敬的各位领导,亲爱的……”“哈哈哈!!”最北火车站有场“春晚”!
沙路炮台遗址公园:广州城防体系的重要历史见证
生态板是实木板吗?生态板与欧松板的区别及环保等级划分
装修必读:生态板的7大利与弊全解析
生态板生产工艺及未来发展趋势探讨
水心板深度解析:生态板VS多层板,一次说清楚不再迷茫!
《新大头儿子和小头爸爸6》:一场迷你冒险背后的亲子启示
重庆火锅:从嘉陵江畔到世界美食名片
万代SHF暗黑欧布玩具评测:细节拉满的奥特曼周边新选择
AES加密算法在主流软件中的应用实例解析
云环境下AES加密:保障你的数据安全
缙云蛟龙大峡谷:360度玻璃栈道+泰坦尼克观景台,江浙沪周末游新去处!
浙江丽水蛟龙大峡谷:仙境般的徒步胜地
倪萍:从青涩初恋到刻骨铭心,再到幸福归宿
热播剧以“画眼”开场,揭秘《清明上河图》中的开封虹桥
倪萍:从情伤到学霸母亲的逆袭之路
跨越亲情的隔阂:从《都挺好》看家庭矛盾的修复之道