从图形频谱角度重新审视对话中的多模态情感识别
从图形频谱角度重新审视对话中的多模态情感识别
多模态情感识别是人工智能领域的重要研究方向,特别是在对话场景中,如何准确捕捉和理解情感信息一直是技术难点。本文介绍了一种基于图形频谱的新型框架GS-MCC,通过创新的图神经网络设计和对比学习方法,有效提升了情感识别的准确性和鲁棒性。
GS-MCC框架
GS-MCC(Graph-Spectrum-based Multimodal Consistency and Complementary)框架旨在提高对话中的多模态情感识别能力,特别是通过捕捉一致性和互补信息来优化情感识别效果。
多模态交互图构建
多模态交互图是通过将不同模态(如文本、音频和视觉)信息结合在一起,构建节点和边以捕捉语义依赖关系,从而有效建模对话中情感信息的相互作用和关系。框架使用滑动窗口技术构建多模态交互图,表示对话中的各个发言及其相互关系,从而捕捉不同模态之间的语义依赖。
傅里叶图神经网络
傅里叶图神经网络是一种利用傅里叶变换技术来捕捉图中节点间长距离依赖关系的深度学习模型,旨在有效地处理高频和低频信息,以提升图数据的表示能力。GS-MCC设计了高效的傅里叶图操作符,能够分别提取高频和低频信息,这两者对应于情感信息中的互补性和一致性。
对比学习
对比学习是一种自监督学习方法,通过将相似样本拉近、将不同样本远离,来增强模型对特征的辨识能力,从而提高分类和识别的准确性。框架通过对比学习构建自监督信号,促进高频和低频信号之间的一致性与互补性协作,从而提升情感特征的学习效果。
情感分类器
GS-MCC将提取到的高频和低频特征输入到多层感知器(MLP)网络和softmax函数中进行情感预测,优化情感识别的准确性。
结语
本文提出了一种基于图形频谱的多模态一致性与互补特征协作学习框架(GS-MCC),旨在提高对话中的多模态情感识别能力,通过有效捕捉长距离依赖和多模态信息的协作,从而提升情感识别的准确性。
论文题目: Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum
论文链接: https://arxiv.org/abs/2404.17862