准确率接近百分百的组合:交叉注意力+特征融合
创作时间:
作者:
@小白创作中心
准确率接近百分百的组合:交叉注意力+特征融合
引用
CSDN
1.
https://blog.csdn.net/d22800/article/details/145163703
交叉注意力和特征融合是当前人工智能领域的重要研究方向,广泛应用于图像和文本匹配、EEG情绪识别、多光谱目标检测以及点云分割等多个领域。本文将介绍四篇相关领域的代表性论文,探讨它们在方法创新和性能提升方面的贡献。
论文1:用于图像和句子匹配的多模态交叉注意力网络
方法:
- 自注意力模块:利用Transformer单元对图像区域和句子词进行建模,以捕捉模态内部的关系。图像区域通过预训练的bottom-up注意力模型提取特征,句子词则使用BERT模型进行编码。
- 交叉注意力模块:将图像区域和句子词的特征堆叠后输入Transformer单元,通过交叉注意力机制同时考虑模态间和模态内的关系,以增强图像和句子的匹配能力。
- 特征聚合:采用1D-CNN和池化操作对特征进行聚合,得到图像和句子的全局表示。
- 双向三元组损失:通过硬负样本挖掘优化模型参数,使匹配的图像和句子对的相似度高于不匹配的对。
创新点:
- 联合建模模态内外关系:首次在统一的深度模型中同时建模图像区域和句子词的模态内和模态间关系,提升了特征的判别能力。
- 性能提升:在Flickr30K数据集上,图像到句子检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,句子到图像检索的R@1、R@5、R@10指标分别达到54.8%、81.4%、87.8%,在MS-COCO数据集上,图像到句子检索的R@1指标比最佳基线提高了3.6%,句子到图像检索的R@1指标提高了3.8%。
- 注意力机制的创新应用:提出的交叉注意力模块能够同时利用模态内和模态间的关系,为图像和句子匹配任务提供了新的视角和方法。
论文2:基于互交叉注意力机制的EEG情绪识别特征融合
方法:
- 数据预处理:采用Notch滤波器消除50 Hz干扰,设置4-45 Hz带通滤波器,并通过独立成分分析(ICA)去除噪声。
- 特征提取:在五个不同的频率带中提取差分熵(DE)和功率谱密度(PSD)特征。
- 互交叉注意力机制(MCA):将DE和PSD分别作为键和查询向量,通过双向的缩放点积注意力操作进行特征融合。
- 3D-CNN分类:设计了一种特殊的3D-CNN结构,用于处理融合后的特征,并进行情绪分类。
创新点:
- 互交叉注意力机制:首次提出了一种纯数学的特征融合方法,能够从两个特征的方向应用注意力机制,实现了DE和PSD特征的有效融合。
- 新3D特征表示:开发了独特的Channel-Frequency-Time 3D特征结构,同时呈现频谱和时间信息,提高了特征的表达能力。
- 性能提升:在DEAP数据集上,情绪识别的准确率达到了99.49%(情绪价值)和99.30%(唤醒度),相较于其他SOTA方法有显著提升。
论文3:用于多光谱目标检测的具有交叉注意力特征融合的变换器
方法:
- 交叉注意力特征融合(CAFF):在每个抽象层次上,对红外和可见光特征图进行层次化的交叉注意力操作,以提取两者之间的关联信息。
- DINO检测器:使用DINO检测器作为基于变换器的目标检测头,结合融合后的特征进行目标检测。
- 特征融合模块:通过1×1卷积操作将融合后的特征调整为适合检测头的维度。
- 模型架构:由两个单光谱特征提取器、多个融合模块和一个变换器检测头组成,实现从融合特征中进行目标检测。
创新点:
- 交叉注意力机制:首次在红外-可见光图像对融合中应用交叉注意力机制,有效提取两种模态之间的关联信息。
- 性能提升:在LLVIP数据集上,与CFT-YOLOv5相比,mAP提高了4.9%;在FLIR-aligned数据集上,与ICA-Fusion模型相比,mAP提高了9.1%。
- 鲁棒性:对图像对的系统性错位具有较强的鲁棒性,能够在图像对存在错位的情况下保持较高的检测性能。
- 通用性:该模型架构通用性强,可快速应用于大多数单模态变换器检测器。
论文4:具有场景级监督的2D-3D交错变换器用于点云分割
方法:
- 多模态交错变换器(MIT):通过两个编码器和一个解码器联合考虑2D和3D数据,实现弱监督点云分割。
- 编码器-解码器架构:编码器分别计算3D点云和2D多视图图像的自注意力特征,解码器通过交错的2D-3D交叉注意力实现特征融合。
- 交叉注意力机制:在解码器的不同层中交替切换查询和键值对的角色,使2D和3D特征相互丰富。
- 对比损失:开发对比损失以对齐不同模态之间的类别标记。
创新点:
- 首次尝试:首次在场景级监督下融合2D-3D信息进行点云分割。
- 性能提升:在ScanNet数据集上,mIoU达到35.8%,在S3DIS数据集上,mIoU达到31.7%,显著优于现有的弱监督点云分割方法。
- 无需额外标注:无需额外的2D图像标注,仅使用场景级类别标签即可实现有效的2D-3D特征融合。
- 对比损失:通过对比损失对齐不同模态的类别标记,进一步提升了模型的性能。
本文原文来自CSDN
热门推荐
如何评估纸黄金和纸白银的趋势情况?这种趋势情况受哪些宏观因素影响?
SD-WAN专线网络厂家有哪些-sdwan设备与路由器有什么区别
“情感共鸣”写作法,好作品都会让读者感同身受,触动内心
鼠标垫可以洗吗?正确清洗方法在这里
离婚冷静期对你有什么影响?
Inconel 718是什么材料?
Inconel718镍铬铁基高温合金的熔炼与铸造工艺阐释
北宋钱币《宣和通宝》
【烤肉必看懒人包】烤肉技巧、食材、地点大整理!让夜晚“夯”起来
药物中毒后遗症有哪些?如何应对?
从乡村教师到“重庆市书香校长” 他用阅读之光点亮学生人生路
柴胡桂枝干姜汤的比例药量
存量房贷利率怎么降?降多少?
为什么一张照片会占用10MB存储空间?详解影响因素及解决方案
中老年人的情绪管理指南
高度近视患者视网膜裂孔治疗记:激光手术体验与术后恢复全记录
日本人性题材电影《红》:绚烂樱花下的爱情纠葛与人性探索
如何确定基金卖出的价格?这种定价策略对投资者有何影响?
金秀贤将亲自回应!
成都青羊宫街,算命文化浓。
速度最快的16只神奇宝贝排名
童话语言的特点有哪些?童话语言的魔力:揭秘其引人入胜的特点!
带状疱疹:一种潜伏在体内的“缠腰龙”
如何正确上链条油以延长链条寿命?这种上油方法对车辆维护有何益处?
如何进行合理的家居色彩搭配?这种搭配有哪些原则?
李斯之死:政治斗争的悲剧
美国要求对中国石墨产品加征920%关税,专家:此举或搬起石头砸自己的脚
山上为何有流不完的水?山上的水是怎么来的,水是如何循环的?
洗车液怎样选才不伤车?
仓库最基本的管理手段有哪些