准确率接近百分百的组合:交叉注意力+特征融合
创作时间:
作者:
@小白创作中心
准确率接近百分百的组合:交叉注意力+特征融合
引用
CSDN
1.
https://blog.csdn.net/d22800/article/details/145163703
交叉注意力和特征融合是当前人工智能领域的重要研究方向,广泛应用于图像和文本匹配、EEG情绪识别、多光谱目标检测以及点云分割等多个领域。本文将介绍四篇相关领域的代表性论文,探讨它们在方法创新和性能提升方面的贡献。
论文1:用于图像和句子匹配的多模态交叉注意力网络
方法:
- 自注意力模块:利用Transformer单元对图像区域和句子词进行建模,以捕捉模态内部的关系。图像区域通过预训练的bottom-up注意力模型提取特征,句子词则使用BERT模型进行编码。
- 交叉注意力模块:将图像区域和句子词的特征堆叠后输入Transformer单元,通过交叉注意力机制同时考虑模态间和模态内的关系,以增强图像和句子的匹配能力。
- 特征聚合:采用1D-CNN和池化操作对特征进行聚合,得到图像和句子的全局表示。
- 双向三元组损失:通过硬负样本挖掘优化模型参数,使匹配的图像和句子对的相似度高于不匹配的对。
创新点:
- 联合建模模态内外关系:首次在统一的深度模型中同时建模图像区域和句子词的模态内和模态间关系,提升了特征的判别能力。
- 性能提升:在Flickr30K数据集上,图像到句子检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,句子到图像检索的R@1、R@5、R@10指标分别达到54.8%、81.4%、87.8%,在MS-COCO数据集上,图像到句子检索的R@1指标比最佳基线提高了3.6%,句子到图像检索的R@1指标提高了3.8%。
- 注意力机制的创新应用:提出的交叉注意力模块能够同时利用模态内和模态间的关系,为图像和句子匹配任务提供了新的视角和方法。
论文2:基于互交叉注意力机制的EEG情绪识别特征融合
方法:
- 数据预处理:采用Notch滤波器消除50 Hz干扰,设置4-45 Hz带通滤波器,并通过独立成分分析(ICA)去除噪声。
- 特征提取:在五个不同的频率带中提取差分熵(DE)和功率谱密度(PSD)特征。
- 互交叉注意力机制(MCA):将DE和PSD分别作为键和查询向量,通过双向的缩放点积注意力操作进行特征融合。
- 3D-CNN分类:设计了一种特殊的3D-CNN结构,用于处理融合后的特征,并进行情绪分类。
创新点:
- 互交叉注意力机制:首次提出了一种纯数学的特征融合方法,能够从两个特征的方向应用注意力机制,实现了DE和PSD特征的有效融合。
- 新3D特征表示:开发了独特的Channel-Frequency-Time 3D特征结构,同时呈现频谱和时间信息,提高了特征的表达能力。
- 性能提升:在DEAP数据集上,情绪识别的准确率达到了99.49%(情绪价值)和99.30%(唤醒度),相较于其他SOTA方法有显著提升。
论文3:用于多光谱目标检测的具有交叉注意力特征融合的变换器
方法:
- 交叉注意力特征融合(CAFF):在每个抽象层次上,对红外和可见光特征图进行层次化的交叉注意力操作,以提取两者之间的关联信息。
- DINO检测器:使用DINO检测器作为基于变换器的目标检测头,结合融合后的特征进行目标检测。
- 特征融合模块:通过1×1卷积操作将融合后的特征调整为适合检测头的维度。
- 模型架构:由两个单光谱特征提取器、多个融合模块和一个变换器检测头组成,实现从融合特征中进行目标检测。
创新点:
- 交叉注意力机制:首次在红外-可见光图像对融合中应用交叉注意力机制,有效提取两种模态之间的关联信息。
- 性能提升:在LLVIP数据集上,与CFT-YOLOv5相比,mAP提高了4.9%;在FLIR-aligned数据集上,与ICA-Fusion模型相比,mAP提高了9.1%。
- 鲁棒性:对图像对的系统性错位具有较强的鲁棒性,能够在图像对存在错位的情况下保持较高的检测性能。
- 通用性:该模型架构通用性强,可快速应用于大多数单模态变换器检测器。
论文4:具有场景级监督的2D-3D交错变换器用于点云分割
方法:
- 多模态交错变换器(MIT):通过两个编码器和一个解码器联合考虑2D和3D数据,实现弱监督点云分割。
- 编码器-解码器架构:编码器分别计算3D点云和2D多视图图像的自注意力特征,解码器通过交错的2D-3D交叉注意力实现特征融合。
- 交叉注意力机制:在解码器的不同层中交替切换查询和键值对的角色,使2D和3D特征相互丰富。
- 对比损失:开发对比损失以对齐不同模态之间的类别标记。
创新点:
- 首次尝试:首次在场景级监督下融合2D-3D信息进行点云分割。
- 性能提升:在ScanNet数据集上,mIoU达到35.8%,在S3DIS数据集上,mIoU达到31.7%,显著优于现有的弱监督点云分割方法。
- 无需额外标注:无需额外的2D图像标注,仅使用场景级类别标签即可实现有效的2D-3D特征融合。
- 对比损失:通过对比损失对齐不同模态的类别标记,进一步提升了模型的性能。
本文原文来自CSDN
热门推荐
报案人案件介绍:法律程序与权利义务解析
乌鱼子怎么保存与挑选
扬州到底是不是江南?为何有的人意见那么大?难道乾隆皇帝错了
解读《2025年国家医疗质量安全改进目标》:医院趋势与应对策略
皮肤脓肿病理变化及治疗方法
机器视觉中如何选择工业相机与合适的相机镜头
真实才有价值 网红探店正走向规范发展
如何运用反向写作激发思维并增强论证力度?
驾驶证换证体检要求详解
中经社发布中国电子核心产业城市竞争力排行榜 深圳、上海、苏州位列前三
新闻分析:“对等关税”将反噬美国经济
什么是车贷利率计算
如何快速找到电信服务台的联系电话?
未来已来:相变蓄冷系统节能高达50%,你震惊了吗?
团队对立如何合作共赢
当遇到诈骗后如何做
不同种类的晕车药该如何选择?
肉毒毒素注射要点:直击面部皱纹及肌张力障碍
电动车电池衰退迹象全解析:这些症状出现,赶紧更换!
踏上广西文化之旅,探寻八桂大地的魅力与风情
忠字怎么写,从笔画到精神的深度解读
台式电脑内存条的重要作用(提升计算机性能与运行速度的关键)
如何有效降低CPU温度,保持电脑稳定运行与性能优化技巧总结
珍珠奶茶中的“珍珠”到底是啥? 营养专家教你“喝”出健康
黄灯新规来了?这样“闯黄灯”直接记6分!
黄灯最后一秒过线,继续走还是停下来?今天告诉你答案
音响音质评价的全维度解析
春秋战国时期深衣的服饰文化探析
拓跋鲜卑南迁,改汉姓、用汉字、穿汉服,成为中华民族发展的重要参与者和推动者
汇编语言DEBUG命令详解:A、U、R、T、D、E、Q等常用命令