【论文笔记】基于多模态对话方面的情绪分析的模型
【论文笔记】基于多模态对话方面的情绪分析的模型
这篇论文原标题:PanoSent: A Panoptic Sextuple Extraction Benchmark for
Multimodal Conversational Aspect-based Sentiment Analysis,发表在ACM MM 2024上
背景
现有的情感分析研究在多模态性、对话上下文、细粒度情感元素以及情感动态变化和认知因果理由的整合方面存在不足。为了弥补这些差距,论文提出了一种多模态对话基于方面的情感分析(ABSA)方法,旨在更全面地理解和分析情感。
数据集
作者还构建了一个大规模、高质量的数据集PanoSent,相较于传统的数据集它包含手动和自动注释,覆盖了多种语言和场景。数据集特点包括细粒度情感定义、认知因果理由、动态情感翻转、多场景、多模态性、多语言性和隐式ABSA。下图PanoSent与其他数据集的比较。
在此数据集中包含英语、汉语和西班牙语的文本、图像、音频和视频等多种模态的数据,场景为对话聊天数据,详细标注了情感持有者、目标、方面、观点和理由等六个关键元素组成的六元组,在这个数据集中体现出了因果推理和情感的转变(,还包括了需要从上下文或多模态信息中隐式推断的情感元素,以及直接在文本中明确提及的显式情感元素的数据。下图为文章提到的一个例子,包括了六元组的现实含义、隐式和显示的情感推理和情感的翻转:
模型
目前LLM在理解语义的方面已经表现出显著的能力,为此作者引入了FlanT5(XXL)作为语义理解和决策的核心LLM,对于非文本模态的输入使用ImageBind作为统一的编码器,然后经过一个线性层连接ImageBind和LLM进行表示投影。作者还提出了情感链推理框架,将识别目标方面和意见这两个子任务解构成四个循序渐进的推理步骤(CoS),由简到繁,每一步使用大型语言模型(如GPT-4)来验证释义是否与原始对话上下文一致,通过比较释义和对话内容,确定它们之间是否存在逻辑上的蕴含关系。先放模型图:
第一步:目标-方面识别
输入:多轮对话文本和相关的多模态信息(如图像、音频),
任务:识别对话中提及的目标和相关方面。
输出:目标-方面的配对列表。
第二部:持有者-观点检测
输入:上一步得到的目标-方面配对。
任务:分析每个观点相关的情感倾向和背后的理由。
输出:包含情感和理由的六元组列表。
第三部:情感-理由挖掘
输入:上一步得到的持有者-目标-方面-观点四元组。
任务:分析每个观点相关的情感倾向和背后的理由。
输出:包含情感和理由的六元组列表。
第四步:情感翻转触发器分类
输入:上一步得到的六元组。
任务:识别情感翻转事件和分类翻转的触发原因。
输出:情感翻转事件的详细信息,包括触发原因。
实验
作者对比了不同方法在SubtaskI上的性能,其中我们可以得到以下观察结果。首先,由于PanoSent数据中存在许多隐式元素,基于提取的基线(如DiaASQ和UGF)的性能可能较差。然而,基于LLM的方法的生成特性有效地解决了这个问题,从而导致了整体更好的性能。比较Sentica(本模型)与统一io2和NExTGPT(M3&M4vsM5),我们看到作者的方法的性能更好。当Setecia配备CoS框架时,比直接提示范式(M7vsM5).此外,比较M6和M7显示了作者提出的CoS推理的明显优势。
作者还做了一些消融实验,Setecia在同一主干LLM上,优于NExT-GPT。此外,与直接提示或CoT技术相比,CoS推理方法显著提高了所有语言中情绪翻转识别的准确性。此外,完整系统(即Setcia+CoS+PpV)的性能最好。从上述两个子任务中得到的主要结果和观察结果明显地证明了作者所提出的方法的有效性。
结论
总的来说本文作者构建了一个大规模、多模态、多语言的数据集,并开发了一个基于多模态大型语言模型的推理框架(Chain-of-Sentiment),结合了释义验证机制,以提高情感分析的准确性和鲁棒性。通过在PanoSent数据集上的实验,论文验证了所提出方法的有效性。