交叉注意力结合特征融合,这个创新思路必将爆发!
交叉注意力结合特征融合,这个创新思路必将爆发!
交叉注意力机制作为一种强大的特征交互工具,近年来在特征融合领域展现出巨大潜力。本文精选了三篇相关论文,分别展示了交叉注意力机制在脑电情绪识别、图像与句子匹配、多光谱目标检测等场景中的创新应用。
基于互交叉注意力机制的特征融合用于脑电情绪识别
方法
互交叉注意力机制(MCA):提出了一种新的特征融合机制,通过从两个特征方向应用注意力机制,发现时域和频域特征之间的互补关系。
3D-CNN网络:结合定制的3D-CNN网络,用于处理融合后的特征,提升情绪识别性能。
Channel-PSD-DE 3D特征表示:开发了一种新的3D特征结构,同时呈现频谱和时域信息。
特征提取:采用差分熵(DE)和功率谱密度(PSD)作为主要特征,并在五个频率带(θ、α、慢α、β、γ)中进行提取。
创新点
互交叉注意力机制(MCA):首次在EEG情绪分析中提出纯数学融合方法,通过双向注意力机制融合DE和PSD特征,显著提升了情绪识别的准确性。
性能提升:在DEAP数据集上,该方法在情绪效价(valence)和唤起度(arousal)的识别准确率分别达到了99.49%和99.30%,相比其他方法(如DE+PSD基线方法的90.90%和91.30%)有显著提升。
新的3D特征表示:提出的Channel-PSD-DE 3D特征结构优于其他基于拓扑的3D特征表示方法,提升了模型对频谱信息的利用效率。
计算效率:通过定制的3D-CNN网络,减少了模型复杂度,提高了模型的输出效率,适合实时情绪识别应用。
多模态交叉注意力网络用于图像与句子匹配
方法
多模态交叉注意力(MMCA)网络:提出了一个新的网络架构,联合建模图像区域和句子单词之间的跨模态关系以及模态内的关系。
自注意力模块:使用Transformer单元对图像区域和句子单词分别进行特征提取,建模模态内的关系。
交叉注意力模块:将图像和文本特征堆叠后输入Transformer单元,同时建模跨模态和模态内的关系。
特征聚合:通过1D-CNN和池化操作聚合特征片段,生成图像和句子的全局表示。
创新点
多模态交叉注意力模块:首次在图像与句子匹配任务中联合建模模态内和模态间的关系,提升了匹配性能。
性能提升:在Flickr30K数据集上,图像到文本检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,相比之前的最佳方法(如SCAN的67.4%、90.3%、95.8%)有显著提升;在MS-COCO 1K测试集上,图像到文本检索的R@1指标达到74.8%,相比之前的最佳方法(如CAMP的72.3%)提升了2.5个百分点。
统一框架:通过自注意力和交叉注意力模块,将模态内和模态间的关系统一在一个深度模型中,提高了特征的判别能力。
迭代交叉注意力引导的多光谱目标检测特征融合
方法
迭代交叉注意力(ICA)特征融合框架:提出了一种新的双交叉注意力变换器框架,用于同时建模局部和全局特征交互,捕捉不同模态间的互补信息。
迭代学习策略:受人类复习知识过程的启发,提出了一种迭代学习机制,通过参数共享减少模型复杂度和计算成本。
空间特征压缩(SFS)模块:在特征融合前对特征图进行压缩,降低后续计算成本。
跨模态特征增强(CFE)模块:通过查询引导的交叉注意力机制,增强单模态特征,同时减少图像错位带来的影响。
创新点
迭代交叉注意力机制:通过迭代学习策略,共享参数并逐步优化跨模态特征,提升了模型性能,同时减少了参数数量和计算成本。
性能提升:在KAIST数据集上,该方法的对数平均漏检率(MR)降低到7.17%,相比基线方法(如NIN融合的8.33%)降低了1.16个百分点;在FLIR数据集上,平均精度(mAP50)达到79.2%,相比基线方法(如NIN融合的76.5%)提升了2.7个百分点。
跨模态特征增强:通过CFE模块,利用全局信息增强单模态特征,提升了模型对不同模态特征的判别能力。
计算效率:通过空间特征压缩和迭代学习策略,显著降低了模型的计算复杂度和内存需求,同时保持了较高的检测精度。