问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

交叉注意力与特征融合在多模态学习中的应用

创作时间:

作者:

@小白创作中心

交叉注意力与特征融合在多模态学习中的应用

引用

CSDN

1.

https://blog.csdn.net/d22800/article/details/146036085

交叉注意力与特征融合的结合在多模态学习领域中是一种非常重要的技术，它通过注意力机制在不同模态之间建立联系，促进信息的交流和整合，显著提升了模型处理多模态数据的能力，尤其在图像融合、目标检测、点云分割等多个领域展现出强大的优势。

论文1：MMViT: Multiscale Multiview Vision Transformers

方法：

多尺度多视图特征融合：通过引入多尺度特征图和多视图编码，将输入信号的不同视图编码到变换器模型中，并在不同分辨率下并行处理多个视图。
交叉注意力块：在每个尺度阶段使用交叉注意力块融合不同视图之间的信息，使模型能够获取输入在不同分辨率下的复杂高维表示。

创新点：

交叉注意力机制：通过在每个尺度阶段引入交叉注意力层，有效地融合了不同视图的信息，使模型能够更好地捕捉多分辨率时序上下文，显著提升了模型在音频和图像分类任务上的性能。
音频专用数据增强：提出了一种音频专用的CutMix方法，通过在时间轴上进行切割，防止模型过拟合，提升了音频分类任务的性能，mAP提升了4%（从39%提升到43%）。
跨模态迁移学习：利用在图像数据上预训练的模型，通过调整权重将其应用于音频分类任务，减少了对大量音频数据的需求，同时保持了较高的性能。

论文2：2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

方法：

多模态交织变换器（MIT）：提出了一种包含两个编码器和一个解码器的变换器模型，分别用于处理3D点云和2D多视图图像，并在解码器中实现2D-3D特征的交织融合。
编码器设计：两个编码器分别计算3D点云和2D多视图图像的自注意力特征，并通过类别标签进行监督学习。

创新点：

弱监督下的2D-3D融合：首次在仅使用场景级类别标签的弱监督条件下实现2D-3D特征融合，无需额外的2D标注或相机姿态信息，显著降低了标注成本。
交织注意力机制：通过交替的2D-3D交叉注意力层，使3D特征和2D特征相互丰富，显著提升了点云分割的性能。在S3DIS和ScanNet数据集上，mIoU分别提升了5.3%和4.2%。
对比学习增强：引入对比损失函数对齐多模态下的类别特征，进一步提升了模型的性能，mIoU提升了1.4%。
多视图信息聚合：通过全局注意力机制聚合多视图信息，避免了传统方法中对相机姿态或深度图的依赖，同时减少了计算开销。

论文3：Multi-Modality Cross Attention Network for Image and Sentence Matching

方法：

自注意力模块：使用Transformer单元对图像区域和句子单词分别建模内部关系，提取细粒度的特征表示。
交叉注意力模块：将图像区域和句子单词的特征堆叠后输入Transformer单元，通过交叉注意力同时考虑内部和跨模态关系。

创新点：

联合建模跨模态和内部关系：首次在一个统一的深度模型中联合建模图像区域和句子单词的内部关系和跨模态关系，显著提升了图像和句子匹配的性能。
细粒度特征交互：通过交叉注意力机制，模型能够捕捉图像区域和句子单词之间的细粒度交互，提升了匹配的准确性。在MS-COCO数据集上，图像到句子检索的R@1指标提升了2.1%（从72.7%提升到74.8%），句子到图像检索的R@1指标提升了2.8%（从58.8%提升到61.6%）。
高效的特征聚合：采用1D-CNN和池化操作聚合特征，保留了图像和句子的语义信息，同时提高了模型的计算效率。

论文4：Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition

方法：

互交叉注意力机制（MCA）：提出了一种新的数学特征融合方法，通过双向注意力机制融合EEG数据的时间域和频域特征。
3D特征表示：设计了一种新的3D特征结构（Channel-PSD-DE），同时呈现频谱和时间信息，用于EEG情绪识别。

创新点：

互交叉注意力机制：首次在EEG情绪识别中提出纯数学融合方法，通过双向注意力机制融合DE和PSD特征，显著提升了情绪识别的准确性。
新的3D特征结构：提出的Channel-PSD-DE 3D特征结构在频谱和时间信息的呈现上优于现有的基于拓扑的3D特征结构。例如，相比其他基于3D-CNN的方法，该特征结构在“愉悦度”和“唤醒度”维度上的准确率分别提升了1.98%和1.76%。
高效率和高解释性：该方法在保持高准确率的同时，避免了复杂的神经网络结构，提升了模型的效率和解释性，适合实际临床应用。

热门推荐

九寨沟&四姑娘山：川西自驾游的绝美路线！

九寨沟&四姑娘山：川西自驾游的绝美路线！

九寨沟自驾游：绝美景点大搜罗

九寨沟自驾游：绝美景点大搜罗

一直打嗝怎么办？3类食物要少吃，1招分辨嗳气、呃逆

一直打嗝怎么办？3类食物要少吃，1招分辨嗳气、呃逆

男性更年期5大症状！注意3大原因，专家：靠这7种营养素调适

男性更年期5大症状！注意3大原因，专家：靠这7种营养素调适

妻子处于更年期，丈夫要如何维持家庭和睦？

妻子处于更年期，丈夫要如何维持家庭和睦？

二手烟比一手烟更致命？真相揭秘！

二手烟比一手烟更致命？真相揭秘！

双十一购烟攻略：如何买到正品黄山徽商？

双十一购烟攻略：如何买到正品黄山徽商？

黄山徽商香烟：从包装到口感的全方位真伪辨别指南

黄山徽商香烟：从包装到口感的全方位真伪辨别指南

甘南洛克之路川西色达达古冰川10日旅游路线规划攻略，甘南川西秘境之旅

甘南洛克之路川西色达达古冰川10日旅游路线规划攻略，甘南川西秘境之旅

巴黎-勃艮第自驾游攻略：一路美景等你来打卡！

巴黎-勃艮第自驾游攻略：一路美景等你来打卡！

中央财经大学公布2025届MBA毕业生职业发展状况

中央财经大学公布2025届MBA毕业生职业发展状况

紫砂壶养护全攻略：从日常清洁到深度保养

紫砂壶养护全攻略：从日常清洁到深度保养

买房时如何计算首付金额？怎样合理规划购房资金？

买房时如何计算首付金额？怎样合理规划购房资金？

北京二手房单月成交量时隔21个月再次突破2万套

北京二手房单月成交量时隔21个月再次突破2万套

起外号背后的心理密码：从社交动机到文化差异

起外号背后的心理密码：从社交动机到文化差异

朋友圈里的那些搞笑外号，你有吗？

朋友圈里的那些搞笑外号，你有吗？

你的外号暴露了你在朋友圈的地位？

你的外号暴露了你在朋友圈的地位？

昆明滇池深度游玩时间规划：涵盖景点、交通与活动指南

昆明滇池深度游玩时间规划：涵盖景点、交通与活动指南

李玟抑郁症离世引发的思考：精神压力与糖尿病的双重威胁

李玟抑郁症离世引发的思考：精神压力与糖尿病的双重威胁

双十一买买买，别忘了管理你的血糖！

双十一买买买，别忘了管理你的血糖！

广州医大专家：精神压力与糖尿病的关系及预防方法

广州医大专家：精神压力与糖尿病的关系及预防方法

饮食调整双管齐下，轻松应对压力与糖尿病

饮食调整双管齐下，轻松应对压力与糖尿病

【家庭教育新视角】解锁孩子心灵成长的四把钥匙

【家庭教育新视角】解锁孩子心灵成长的四把钥匙

房颤患者的福音：新型抗凝药或将大幅降低出血风险

房颤患者的福音：新型抗凝药或将大幅降低出血风险

科学穿高跟鞋，既要美丽也要健康

科学穿高跟鞋，既要美丽也要健康

秋冬职场穿搭：高跟鞋如何助你气场全开？

秋冬职场穿搭：高跟鞋如何助你气场全开？

从京东盗号案看QQ账号安全：如何设置一个安全的密码？

从京东盗号案看QQ账号安全：如何设置一个安全的密码？

秋日亲子游：福州动物园全攻略

秋日亲子游：福州动物园全攻略

金丝猴：从福州动物园看珍稀动物保护

金丝猴：从福州动物园看珍稀动物保护

到底什么才是“彼此相爱”？对浪漫爱情的心理学解读

到底什么才是“彼此相爱”？对浪漫爱情的心理学解读

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号