交叉注意力与特征融合在多模态学习中的应用
创作时间:
作者:
@小白创作中心
交叉注意力与特征融合在多模态学习中的应用
引用
CSDN
1.
https://blog.csdn.net/d22800/article/details/146036085
交叉注意力与特征融合的结合在多模态学习领域中是一种非常重要的技术,它通过注意力机制在不同模态之间建立联系,促进信息的交流和整合,显著提升了模型处理多模态数据的能力,尤其在图像融合、目标检测、点云分割等多个领域展现出强大的优势。
论文1:MMViT: Multiscale Multiview Vision Transformers
方法:
- 多尺度多视图特征融合:通过引入多尺度特征图和多视图编码,将输入信号的不同视图编码到变换器模型中,并在不同分辨率下并行处理多个视图。
- 交叉注意力块:在每个尺度阶段使用交叉注意力块融合不同视图之间的信息,使模型能够获取输入在不同分辨率下的复杂高维表示。
创新点:
- 交叉注意力机制:通过在每个尺度阶段引入交叉注意力层,有效地融合了不同视图的信息,使模型能够更好地捕捉多分辨率时序上下文,显著提升了模型在音频和图像分类任务上的性能。
- 音频专用数据增强:提出了一种音频专用的CutMix方法,通过在时间轴上进行切割,防止模型过拟合,提升了音频分类任务的性能,mAP提升了4%(从39%提升到43%)。
- 跨模态迁移学习:利用在图像数据上预训练的模型,通过调整权重将其应用于音频分类任务,减少了对大量音频数据的需求,同时保持了较高的性能。
论文2:2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision
方法:
- 多模态交织变换器(MIT):提出了一种包含两个编码器和一个解码器的变换器模型,分别用于处理3D点云和2D多视图图像,并在解码器中实现2D-3D特征的交织融合。
- 编码器设计:两个编码器分别计算3D点云和2D多视图图像的自注意力特征,并通过类别标签进行监督学习。
创新点:
- 弱监督下的2D-3D融合:首次在仅使用场景级类别标签的弱监督条件下实现2D-3D特征融合,无需额外的2D标注或相机姿态信息,显著降低了标注成本。
- 交织注意力机制:通过交替的2D-3D交叉注意力层,使3D特征和2D特征相互丰富,显著提升了点云分割的性能。在S3DIS和ScanNet数据集上,mIoU分别提升了5.3%和4.2%。
- 对比学习增强:引入对比损失函数对齐多模态下的类别特征,进一步提升了模型的性能,mIoU提升了1.4%。
- 多视图信息聚合:通过全局注意力机制聚合多视图信息,避免了传统方法中对相机姿态或深度图的依赖,同时减少了计算开销。
论文3:Multi-Modality Cross Attention Network for Image and Sentence Matching
方法:
- 自注意力模块:使用Transformer单元对图像区域和句子单词分别建模内部关系,提取细粒度的特征表示。
- 交叉注意力模块:将图像区域和句子单词的特征堆叠后输入Transformer单元,通过交叉注意力同时考虑内部和跨模态关系。
创新点:
- 联合建模跨模态和内部关系:首次在一个统一的深度模型中联合建模图像区域和句子单词的内部关系和跨模态关系,显著提升了图像和句子匹配的性能。
- 细粒度特征交互:通过交叉注意力机制,模型能够捕捉图像区域和句子单词之间的细粒度交互,提升了匹配的准确性。在MS-COCO数据集上,图像到句子检索的R@1指标提升了2.1%(从72.7%提升到74.8%),句子到图像检索的R@1指标提升了2.8%(从58.8%提升到61.6%)。
- 高效的特征聚合:采用1D-CNN和池化操作聚合特征,保留了图像和句子的语义信息,同时提高了模型的计算效率。
论文4:Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition
方法:
- 互交叉注意力机制(MCA):提出了一种新的数学特征融合方法,通过双向注意力机制融合EEG数据的时间域和频域特征。
- 3D特征表示:设计了一种新的3D特征结构(Channel-PSD-DE),同时呈现频谱和时间信息,用于EEG情绪识别。
创新点:
- 互交叉注意力机制:首次在EEG情绪识别中提出纯数学融合方法,通过双向注意力机制融合DE和PSD特征,显著提升了情绪识别的准确性。
- 新的3D特征结构:提出的Channel-PSD-DE 3D特征结构在频谱和时间信息的呈现上优于现有的基于拓扑的3D特征结构。例如,相比其他基于3D-CNN的方法,该特征结构在“愉悦度”和“唤醒度”维度上的准确率分别提升了1.98%和1.76%。
- 高效率和高解释性:该方法在保持高准确率的同时,避免了复杂的神经网络结构,提升了模型的效率和解释性,适合实际临床应用。
热门推荐
股市跌停怎么办?一文读懂交易策略与风险防范
乌檀木和黑金檀木砧板哪种好?乌檀木与黑金檀木砧板的区别
蒙恬遗言,曹操竟如此推崇!
蒙恬遗言,曹操听了都要哭
上海市东方医院“基座引擎”揭秘甲流最新趋势
甲流高发期,办公室防疫指南
《祭十二郎文》教你写祭文:既要传统庄重,又要现代情感
从Ctrl+C到VBA脚本:Excel复制粘贴技巧大全
春节防疫指南:甲流高发期饮食安全
甲流康复期能吃红烧鲫鱼吗?营养师给出专业建议
心衰应该吃什么食物
提高汽车燃油效率:5个实用建议帮你省钱减排
青岛市中医医院骨伤科创新突破:FNS系统让骨折治疗更精准高效
青岛市中医医院的养生之道:膏方、针灸、八段锦,总有一款适合你
星座性格与职业选择:十二星座的职场发展方向
中国与发达国家教育投入比较:现状、差距与未来展望
德国“双元制”PK中美职教体系,谁更强?
应试教育 vs 素质教育:一场关于教育理念的对话
圣经中的多卡斯:从瞪羚到信仰的象征
用“茯苓”和“玫瑰”给狗狗取名,寓意满满!
牙结石喷雾 vs 牙线:谁才是真正的口腔清洁神器?
十二星座职业指南:总有一款工作点燃你的热情
十二星座本周运势:如何提升人际关系?
十二星座心理测试:揭秘你的真我
江铃福顺宿营车停车技巧全攻略:从城市到露营地,轻松应对各种停车难题
办公室必备神器:空气消毒机防甲流
沃特福德 vs 加的夫城:主场龙能否延续不败金身?
英冠焦点战:加的夫城 vs 沃特福德关键球员解析
英冠补赛关键战:加的夫城主场迎战沃特福德,谁能扭转颓势?
加的夫城VS沃特福德:冰与火的对决