准确率接近百分百的组合:交叉注意力+特征融合
创作时间:
作者:
@小白创作中心
准确率接近百分百的组合:交叉注意力+特征融合
引用
CSDN
1.
https://blog.csdn.net/d22800/article/details/145163703
交叉注意力和特征融合是当前人工智能领域的重要研究方向,广泛应用于图像和文本匹配、EEG情绪识别、多光谱目标检测以及点云分割等多个领域。本文将介绍四篇相关领域的代表性论文,探讨它们在方法创新和性能提升方面的贡献。
论文1:用于图像和句子匹配的多模态交叉注意力网络
方法:
- 自注意力模块:利用Transformer单元对图像区域和句子词进行建模,以捕捉模态内部的关系。图像区域通过预训练的bottom-up注意力模型提取特征,句子词则使用BERT模型进行编码。
- 交叉注意力模块:将图像区域和句子词的特征堆叠后输入Transformer单元,通过交叉注意力机制同时考虑模态间和模态内的关系,以增强图像和句子的匹配能力。
- 特征聚合:采用1D-CNN和池化操作对特征进行聚合,得到图像和句子的全局表示。
- 双向三元组损失:通过硬负样本挖掘优化模型参数,使匹配的图像和句子对的相似度高于不匹配的对。
创新点:
- 联合建模模态内外关系:首次在统一的深度模型中同时建模图像区域和句子词的模态内和模态间关系,提升了特征的判别能力。
- 性能提升:在Flickr30K数据集上,图像到句子检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,句子到图像检索的R@1、R@5、R@10指标分别达到54.8%、81.4%、87.8%,在MS-COCO数据集上,图像到句子检索的R@1指标比最佳基线提高了3.6%,句子到图像检索的R@1指标提高了3.8%。
- 注意力机制的创新应用:提出的交叉注意力模块能够同时利用模态内和模态间的关系,为图像和句子匹配任务提供了新的视角和方法。
论文2:基于互交叉注意力机制的EEG情绪识别特征融合
方法:
- 数据预处理:采用Notch滤波器消除50 Hz干扰,设置4-45 Hz带通滤波器,并通过独立成分分析(ICA)去除噪声。
- 特征提取:在五个不同的频率带中提取差分熵(DE)和功率谱密度(PSD)特征。
- 互交叉注意力机制(MCA):将DE和PSD分别作为键和查询向量,通过双向的缩放点积注意力操作进行特征融合。
- 3D-CNN分类:设计了一种特殊的3D-CNN结构,用于处理融合后的特征,并进行情绪分类。
创新点:
- 互交叉注意力机制:首次提出了一种纯数学的特征融合方法,能够从两个特征的方向应用注意力机制,实现了DE和PSD特征的有效融合。
- 新3D特征表示:开发了独特的Channel-Frequency-Time 3D特征结构,同时呈现频谱和时间信息,提高了特征的表达能力。
- 性能提升:在DEAP数据集上,情绪识别的准确率达到了99.49%(情绪价值)和99.30%(唤醒度),相较于其他SOTA方法有显著提升。
论文3:用于多光谱目标检测的具有交叉注意力特征融合的变换器
方法:
- 交叉注意力特征融合(CAFF):在每个抽象层次上,对红外和可见光特征图进行层次化的交叉注意力操作,以提取两者之间的关联信息。
- DINO检测器:使用DINO检测器作为基于变换器的目标检测头,结合融合后的特征进行目标检测。
- 特征融合模块:通过1×1卷积操作将融合后的特征调整为适合检测头的维度。
- 模型架构:由两个单光谱特征提取器、多个融合模块和一个变换器检测头组成,实现从融合特征中进行目标检测。
创新点:
- 交叉注意力机制:首次在红外-可见光图像对融合中应用交叉注意力机制,有效提取两种模态之间的关联信息。
- 性能提升:在LLVIP数据集上,与CFT-YOLOv5相比,mAP提高了4.9%;在FLIR-aligned数据集上,与ICA-Fusion模型相比,mAP提高了9.1%。
- 鲁棒性:对图像对的系统性错位具有较强的鲁棒性,能够在图像对存在错位的情况下保持较高的检测性能。
- 通用性:该模型架构通用性强,可快速应用于大多数单模态变换器检测器。
论文4:具有场景级监督的2D-3D交错变换器用于点云分割
方法:
- 多模态交错变换器(MIT):通过两个编码器和一个解码器联合考虑2D和3D数据,实现弱监督点云分割。
- 编码器-解码器架构:编码器分别计算3D点云和2D多视图图像的自注意力特征,解码器通过交错的2D-3D交叉注意力实现特征融合。
- 交叉注意力机制:在解码器的不同层中交替切换查询和键值对的角色,使2D和3D特征相互丰富。
- 对比损失:开发对比损失以对齐不同模态之间的类别标记。
创新点:
- 首次尝试:首次在场景级监督下融合2D-3D信息进行点云分割。
- 性能提升:在ScanNet数据集上,mIoU达到35.8%,在S3DIS数据集上,mIoU达到31.7%,显著优于现有的弱监督点云分割方法。
- 无需额外标注:无需额外的2D图像标注,仅使用场景级类别标签即可实现有效的2D-3D特征融合。
- 对比损失:通过对比损失对齐不同模态的类别标记,进一步提升了模型的性能。
本文原文来自CSDN
热门推荐
如何寻找前端工程师
口语交际知识分享
如何在笔记本键盘上输入顿号及其快捷键说明
数字时代的祭奠:如何通过网络表达对亲人的思念
墙面装饰材料大百科:18种主流材料全面解析,装修必读指南
把牆面當畫布!10個創意裝飾點子讓客廳更吸睛
有哪些可视化工具可以实现多维数据的平行坐标图
实验室装修材料要求:如何选择实验室装修材料?
全球智点·全球发展倡议丨达沃斯呼吁各国践行“3i战略”以跨越中等收入陷阱
复数:人类的发明还是自然的发现?
美国想把中国芯片产业“赶尽杀绝”,却给自己制造了最大对手
诗词写作的练习与提升指南
复杂生产是什么?复杂生产的类型与作用有哪些?如何优化复杂生产过程?
如何理解和分析公司基本面?这种分析对投资决策有何重要性?
Excel内存占用过大怎么办?一文详解优化方法
Excel中出现内存不足怎么办
献血查艾滋病的试纸:准确性揭秘
建在“地球裂缝”上的世界级高桥——花江峡谷大桥设计创新
揭秘!西藏神秘天珠的七彩魅力与文化内涵
【A2DP】蓝牙A2DP协议剖析:从架构到规范
罗布麻茶的功效与作用点 罗布麻茶有什么好处
出汗后是否应立即脱衣?医生的专业解答来了
2024年日本法学比较好的大学排名
嘴巴里这种“泡泡”,千万别手痒去戳
利用认知行为疗法改善面瘫症状
面瘫康复训练
探索芝麻油的力量:健康、美容和营养
行业主题ETF的投资时机如何根据政策变化判断和调整?政策变化对投资有何影响?
「形而上学」和「辩证法」两种不同的思维方式
高速公路项目管理指南:从规划到维护的全方位管理策略