GAM全局注意力机制:保留信息以增强通道与空间的相互作用
创作时间:
作者:
@小白创作中心
GAM全局注意力机制:保留信息以增强通道与空间的相互作用
引用
1
来源
1.
https://developer.aliyun.com/article/1651559
本文介绍了一种名为GAM(Global Attention Mechanism)的全局注意力机制,该机制通过3D排列和重新设计的子模块,能够在通道和空间方面保留信息,避免了先前方法中由于信息减少和维度分离而导致的全局空间-通道交互丢失的问题。
GAM注意力原理
整体结构
GAM采用了来自CBAM的顺序通道-空间注意力机制,并重新设计了子模块。给定输入特征图$F_{1} \in \mathbb{R}^{C \times H \times W}$,中间状态$F_{2}$和输出$F_{3}$的定义为:
- $F_{2} = M_{c}(F_{1}) \otimes F_{1}$
- $F_{3} = M_{s}(F_{2}) \otimes F_{2}$
其中$M_{c}$和$M_{s}$分别是通道和空间注意力图,$\otimes$表示元素级乘法。
通道注意力子模块
使用3D排列来保留跨三个维度的信息,然后通过两层MLP(多层感知机)放大跨维度的通道-空间依赖性。MLP是具有压缩比$r$的编码器-解码器结构,与BAM相同。
空间注意力子模块
为了关注空间信息,使用两个卷积层进行空间信息融合,并使用与通道注意力子模块相同的压缩比$r$(与BAM相同)。同时,由于最大池化会减少信息并产生负面影响,所以移除了池化以进一步保留特征图。为了防止参数显著增加,在ResNet50中采用了具有通道打乱的组卷积。
优势
- 保留信息:通过3D排列和重新设计的子模块,GAM能够在通道和空间方面保留信息,避免了先前方法中由于信息减少和维度分离而导致的全局空间-通道交互的丢失。
- 放大交互:能够放大“全局”跨维度交互,捕获所有三个维度(通道、空间宽度和空间高度)上的重要特征,从而增强了跨维度的交互能力。
- 性能提升:在CIFAR-100和ImageNet-1K数据集上的评估表明,GAM稳定地优于其他几种近期的注意力机制,无论是在ResNet还是轻量级MobileNet上,都能提高性能。例如,在ImageNet-1K数据集上,对于ResNet18,GAM以更少的参数和更高的效率优于ABN。
参考文献
热门推荐
陨石撞击地球后,为什么都不见了?揭秘陨石"消失"背后的真相!
Azure Kinect DK 硬件规格
农房出租合同的权利义务界定及法律风险防范
备查账簿主要包括哪些
三季度,VC/PE最关注的赛道来了
手把手教你Lora入门:AI绘画中的模型应用与下载指南
龟兹壁画:政教合一体现与圣君象征的深度解读
每个开发人员都应该知道的13个Nodejs库
八字官印相生的具体分析:权力与智慧的完美结合
2024年全国人工智能专业录取分数线(2025届考生参考)
十种适合增肌增重喝的牛奶推荐 健身增肌喝什么牛奶
个人信息被泄露怎么办?报警立案流程及法律后果详解
八字贫富贵贱判断 八字论富贵贫贱
现货黄金入门技巧:掌握关键指标,为投资之路铺平道路
祝领导生日快乐,如何写出得体的生日祝福语
匠心独运:酱香型白酒酿造工艺的深度剖析
B-25J 米切尔中型轰炸机:现实原型与技术细节
完美主义引发疾病 医生积极引导稳定情绪
足底筋膜炎引起的走路刺痛怎么办?六种科学处理方法
东汉时期为何出现“四世三公”大家族现象?
揭秘奥特曼宇宙:这些经典角色你真的了解吗?铁杆粉丝必看
假如飞机一直悬停在空中不动,12小时候后会不会到地球另一边?
高考地理中的非地带性规律
思考的本质与方法:深度反思的力量
股份转让有哪几种方式
揭秘飞机加油:为什么不会加满油箱?
如何利用SPSS合并数据库
冻干粥:健康速食的新宠儿
家庭保险产品需求分析:了解消费者期望与购买意愿
吃山竹的禁忌有什么