IJCAI2024:连续多模态知识图谱构建研究
IJCAI2024:连续多模态知识图谱构建研究
IJCAI 2024会议中的一篇论文提出了一个用于连续多模态知识图谱构建(Continuous MKGC)的终身多模态一致性Transformer框架(LMC)。该研究解决了多模态学习中的不平衡和不一致问题,并在动态场景中实现了新实体和关系的添加。
研究背景与挑战
多模态知识图构建(MKGC)涉及使用多种模态(例如文本和图像)创建实体和关系的结构化表示。然而,现有的 MKGC 模型在处理动态现实场景中添加新实体和关系时面临挑战。当前知识图谱构建的连续设置主要集中于从文本数据中提取实体和关系,而忽略了其他多模态源。因此,需要探索连续MKGC的挑战,以解决灾难性遗忘现象,并确保保留从不同形式的数据中提取的过去知识。
研究动机及贡献
持续的MKGC任务面临以下几个新的挑战:
多种模式的学习速度不平衡:之前具有重播策略的MKGC模型失去可塑性的现象表明,模态的不同收敛速度也可能会加剧多种模态的学习节奏不平衡,导致在不断学习新出现的实体类型和关系时,两种模态的表示都不够优化。
多模态交互中的不一致遗忘:不同模态的遗忘率不同,使得次要模态在持续学习场景中更容易被遗忘,导致模式融合后整个模型出现偏差,甚至比单模态情况下的性能更差。
为了解决上述挑战,作者提出了终身多模态一致性Transformer框架(LMC),该框架在持续学习中发挥了一致的多模态优化的优势,并导致在稳定性和可塑性之间保持了更好的权衡。
方法论
框架概述
如图 3 所示,作者提出的连续 KGC 框架采用具有任务特定范式的双流 Transformer 结构,包括:
结构:该方法利用 Visual Transformer (ViT) 模型进行视觉表示,使用 BERT 模型进行文本表示。由于之前的工作揭示了在较高层 LM 上的操作可以更好地激发来自 LM 的知识以更有效地完成下游任务,因此选择在最后三层 Transformer 上进行带有注意力蒸馏的手拉手多模态交互。
特定任务范式:对于 MRE 任务,通过连接 ViT 和 BERT 模型中的 [CLS] 表示,采用特定于任务的范例。这种组合表示能够获得任务关系集 R 上的概率分布。对于 MNER 任务,为了确保与之前的多模态 NER 任务进行公平比较,使用类似于 LMC 过程中使用的 CRF 函数。
训练过程:整体训练过程如算法1所示。算法框架在每个步骤中包括三个模块,用于学习新的实体类别和关系并复习旧的实体类别和关系,包括平衡的多模态学习节奏、带有注意力蒸馏的当前任务训练和多模态排练。
平衡多模态学习节奏调节梯度优化
正如前文中讨论,不同模态的参数通常具有不同的收敛率,导致持续学习场景中的多模态学习节奏不平衡,从而限制了模型性能。为此,作者希望通过梯度调制策略来关注视觉和文本编码器的优化过程,如图 3 的下半部分所示。在实践中,使用随机梯度下降算法的第 k 个任务。
注意力蒸馏hand-in-hand多模态交互
直观地,假设视觉和文本编码器在中间(在继续学习期间)有一个共享的媒介来相互交互,正如俗话所说的“手拉手,没有人”被抛在后面”。在这种情况下,多模态学习可能具有相对一致的遗忘率和更稳健的交互。受这句谚语的启发,作者在双流 Transformer 结构之间设计了带有注意力蒸馏的手拉手多模态交互,以缓解不一致的遗忘问题,如图 3 的上半部分所示。
手拉手多模态交互:自注意力机制(SAM)无疑是基于Transformer的模型的核心组成部分,它通过计算自键和自查询之间的相似度来获得注意力图。基于这个特点,作者提出了一种手拉手的多模态交互机制,通过计算可学习的共享密钥KW和自己的自查询之间的亲和力来获得注意力图,这可以隐式地将先前任务信息的知识注入注意力中机制。通过共享密钥,视觉和文本编码器可以加强联系并减少融合偏差和不一致遗忘。此外,可以通过在处理新任务时禁止修改来维持 KW 权重,从而防止丢失先前学习的任务信息。
核心注意力蒸馏:作者提出的想法基于这样的假设:在学习新的 MKGC 任务时,新模型将保持与先前模型的注意力相似。为此,文中提取双流 Transformer 模型交互模块的注意力矩阵。具体来说,可学习参数共享密钥Ks,注意力图通过蒸馏函数与先前的任务交互,以减少遗忘并保持注意力图的稳定性。形式上,以第k步和第(k−1)步视觉侧的注意力图为例;将沿宽度尺寸 的蒸馏损失定义为:
其中 H 和 W 表示注意力图的高度和权重。注意力图 a 和 b 之间沿 h 或 w 维度的总距离由 表示。
实验结果
如表 I 所示,终身 MNRE 的实验揭示了几个值得注意的观察结果。
结果表明,简单地使用新示例对单模态 BERT 模型(称为 Vanilla 方法)进行微调,会因严重的过度拟合和灾难性遗忘而导致性能迅速下降。令人惊讶的是,所有测试的多模态模型本应增强单模态模型的性能,但结果却比 Vanilla 差。这进一步强调了进行持续多模式学习研究的重要性。
提出的方法(称为LMC)与所有现有的多模态知识图谱完成(MKGC)模型相比,表现出显着的性能改进。虽然之前的持续学习方法,如 EMR、EMAR-BERT 和 RP-CRE,也采用了记忆模块来减轻遗忘,并采用了复杂的采样策略,但与本文在 10 个分割的 MNRE 实验上的 LMC 相比,它们的性能仍然存在不足。这一结果强调了本文方法的优越性,该方法充分利用多模式交互来实现更好的持续学习表现。
此外,作者考虑两种不同的任务顺序,对提出的方法LMC 和其他基线方法进行彻底的比较,如表二所示。通过分析结果,可以得出尽管存在各种在持续学习场景中性能存在差异的 MKGC 模型,但值得注意的是,在 MNER 任务持续学习的背景下,与单模态 BERT 模型相比,MKGC 模型仍然表现出较差的性能。这一观察结果表明,在多模式持续学习环境中实现令人满意的表现的挑战仍未解决。然而,本文提出的方法 LMC 在终身 Twitter-2017 基准测试中显着优于所有其他方法。性能的显着提高验证了提出方法的稳健性和多功能性,有效解决了先前方法在多模态数据持续学习中的局限性。