问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

BiFormer：具有双层路由注意力机制的视觉Transformer

创作时间:

作者:

@小白创作中心

BiFormer：具有双层路由注意力机制的视觉Transformer

引用

CSDN

1.

https://blog.csdn.net/2501_90186640/article/details/146145439

BiFormer是一种新型的视觉Transformer架构，其核心创新在于引入了双层路由注意力机制（BRA）。这种机制通过动态稀疏性优化计算资源分配，在保持高性能的同时显著降低了计算复杂度。本文将详细介绍BiFormer的设计理念、技术细节及其在多个视觉任务中的表现。

双层路由注意力机制（BRA）

核心思想

BRA通过两步实现动态稀疏性：

区域级路由：将输入特征图划分为S×S个区域，计算区域间亲和力矩阵，为每个区域保留前k个最相关区域。
令牌级注意力：在筛选出的路由区域内，执行细粒度的令牌到令牌注意力，仅涉及相关键值对。

实现细节

区域划分与投影：输入特征图X∈RH×W×C被划分为S2个区域，经线性投影得到查询Q、键K、值V。
区域亲和力计算：通过区域级查询Qr和键Kr的矩阵乘法构建亲和力图Ar∈RS2×S2，并筛选前k个区域：Ir=topkIndex(Ar)。
令牌注意力：收集路由区域的键值对Kg和Vg，执行密集矩阵乘法：O=Attention(Q,Kg,Vg)+LCE(V)。其中，LCE(·)为局部上下文增强模块，采用深度卷积实现。

复杂度分析

BRA的总复杂度为：FLOPs=3HWC2+2S4C+2HWkC。当区域划分因子S取合适值时，复杂度可降至O((HW)4/3)，显著低于普通注意力的O((HW)2)。

BiFormer架构设计

BiFormer采用四阶段金字塔结构（图1），每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括：

BRA模块：实现动态稀疏注意力。
深度卷积：编码相对位置信息。
MLP模块：扩展率为e的2层感知器。

模型变体：

模型	通道数	块数	参数量 (M)	FLOPs (G)
BiFormer-T	64	[2,2,8,2]	13	2.2
BiFormer-S	64	[4,4,18,4]	26	4.5
BiFormer-B	96	[4,4,18,4]	57	9.8

实验结果

图像分类（ImageNet-1K）

BiFormer在相似计算量下优于Swin、CSWin等模型：

模型	FLOPs (G)	Top-1 (%)
Swin-T	4.5	81.3
CSWin-T	4.5	82.7
BiFormer-T	2.2	81.4
BiFormer-S	4.5	83.8
BiFormer-B	9.8	84.3

目标检测与实例分割（COCO）

BiFormer在小目标检测（APs）和实例分割（APm）中表现突出：

骨干网络	mAP (RetinaNet)	mAPb (Mask R-CNN)
Swin-T	41.5	42.2
BiFormer-S	45.9	47.8

语义分割（ADE20K）

骨干网络	mIoU (UperNet)
CSWin-T	49.3
BiFormer-S	49.8
BiFormer-B	51.0

消融实验

BRA有效性验证

对比不同注意力机制，BRA显著提升分类与分割性能：

注意力机制	Top-1 (%)	mIoU (%)
移位窗口	81.3	41.5
可变形注意力	82.0	42.6
BRA	82.7	44.8

架构设计影响

逐步优化模型结构（如重叠补丁嵌入、更深布局）可进一步提升性能：

设计选择	Top-1 (%)
基线（Swin-T）	82.7
+ 更深布局	83.5
+ 卷积位置编码	83.8

可视化与讨论

注意力图分析

图4显示，BRA能准确定位语义相关区域。例如，街景中的建筑物查询会激活相似区域，而室内场景中的鼠标查询关联到键盘和显示器区域，表明其对长距离关系的捕捉能力。

局限性

BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。

结论

BiFormer通过双层路由注意力机制实现动态稀疏性，在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力，平衡效率与精度，为视觉Transformer设计提供了新思路。

附录

区域表示：区域级查询和键通过平均池化计算，最大化平均令牌间亲和力。
吞吐量对比：BRA相比四叉树注意力快3-6倍，因依赖密集矩阵乘法而非稀疏计算。
预训练适配：将BRA应用于预训练ViT，在语义分割任务中mIoU提升2.4%。

代码地址：https://github.com/rayleizhu/BiFormer

热门推荐

宝宝拉绿便？饮食调整有妙招

宝宝拉绿便？饮食调整有妙招

临沧人真的把“鸡”吃明白了

临沧人真的把“鸡”吃明白了

没胃口食不下的时候，就要来一道手撕鸡

没胃口食不下的时候，就要来一道手撕鸡

母乳vs配方奶：宝宝绿便的真相揭秘

母乳vs配方奶：宝宝绿便的真相揭秘

母乳喂养宝宝为何拉绿便？

母乳喂养宝宝为何拉绿便？

王星越蓝盈莹爆红！文荣奖颁奖典礼亮点揭秘

王星越蓝盈莹爆红！文荣奖颁奖典礼亮点揭秘

陈凯歌点赞横店速度，文荣奖见证影视新人崛起

陈凯歌点赞横店速度，文荣奖见证影视新人崛起

朱亚文揭秘文荣奖评选标准：真心与真实成关键

朱亚文揭秘文荣奖评选标准：真心与真实成关键

横店影视城：从“东方好莱坞”到影视人的梦想乐园

横店影视城：从“东方好莱坞”到影视人的梦想乐园

弹床运动的好处：全面提升身心健康的趣味运动

弹床运动的好处：全面提升身心健康的趣味运动

康复床上运动：定义、方法与效果评价

康复床上运动：定义、方法与效果评价

欧联杯曼彻斯特联vs格拉斯哥流浪者前瞻分析阿莫林将在上周的失利后寻求反弹

欧联杯曼彻斯特联vs格拉斯哥流浪者前瞻分析阿莫林将在上周的失利后寻求反弹

KPL为何刺客只有娜可露露，娜可露露和兰陵王哪个厉害

KPL为何刺客只有娜可露露，娜可露露和兰陵王哪个厉害

横店影视文荣奖最新评选标准揭秘：文化自信成评审关键词

横店影视文荣奖最新评选标准揭秘：文化自信成评审关键词

横店影视文荣奖：青年演员的高光时刻

横店影视文荣奖：青年演员的高光时刻

鲁菜健康吃法，你get了吗？

鲁菜健康吃法，你get了吗？

麻腮风疫苗常见问答

麻腮风疫苗常见问答

横店影视文荣奖：盘点那些爆火的影视剧

横店影视文荣奖：盘点那些爆火的影视剧

横店文荣奖揭晓：彭昱畅张榕容摘得最佳青年演员桂冠

横店文荣奖揭晓：彭昱畅张榕容摘得最佳青年演员桂冠

横店影视文荣奖再现历史风云

横店影视文荣奖再现历史风云

桑黄：森林中的金色瑰宝

桑黄：森林中的金色瑰宝

桑黄：天然的健康守护神

桑黄：天然的健康守护神

揭秘“南方人参”桑黄的神奇药效

揭秘“南方人参”桑黄的神奇药效

陈凯歌、朱亚文亮相横店文荣奖：见证“横店速度”，谁是你心中的最佳？

陈凯歌、朱亚文亮相横店文荣奖：见证“横店速度”，谁是你心中的最佳？

王星越蓝盈莹再创佳绩，第十届横店文荣奖揭晓

王星越蓝盈莹再创佳绩，第十届横店文荣奖揭晓

日语学习：超实用「谢谢的日语」这样说更到位，别再只会「ありがとう」！

日语学习：超实用「谢谢的日语」这样说更到位，别再只会「ありがとう」！

赵露思《珠帘玉幕》演技再遭质疑：从新人到实力派的转型之痛

赵露思《珠帘玉幕》演技再遭质疑：从新人到实力派的转型之痛

赵露思新剧《恋人》引热议：从古偶女神到实力派的蜕变之路

赵露思新剧《恋人》引热议：从古偶女神到实力派的蜕变之路

低盐饮食真的能降血压吗？最新研究给出答案

低盐饮食真的能降血压吗？最新研究给出答案

中医养生：非药物降压新潮流

中医养生：非药物降压新潮流

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号