基于自注意的低维知识图谱嵌入链接预测

创作时间:

作者:

@小白创作中心

基于自注意的低维知识图谱嵌入链接预测

引用

CSDN

https://blog.csdn.net/m0_59548117/article/details/137741620

知识图谱链接预测是人工智能领域的重要研究方向，传统的基于嵌入和神经网络的方法都存在可扩展性问题。本文提出了一种基于Transformer的自注意力机制的知识图谱编码器SAttLE，通过显著降低嵌入维度，实现了与现有先进模型相当的性能。

研究背景与动机

现有的知识图谱链接预测方法主要分为两个方向：基于嵌入的方法和基于神经网络的方法。但两者都存在可扩展性问题，大多数现有方法无法利用实体和关系之间的相互作用和依赖性来提高表示的表达能力。因此现有模型几乎通过使用高维嵌入来获得最佳结果。

这一差距激发了我们利用Transformer的多头自注意力机制作为一种通用而强大的方法，以有效地在显著低维的空间中编码知识图谱并解决链接预测问题。我们的目标是将自注意力应用到我们的任务中，因为它已被证明能够有效捕捉序列内的依赖性和交互，并产生高度表达的特征表示（Shen, 2019; Likhosherstov et al., 2021）。

SAttLE模型架构

SAttLE模型主要由以下几个部分组成：

输入嵌入：源实体嵌入es和关系嵌入er被连接起来并输入到基于Transformer的编码器中。
自注意力机制：

单头注意力矩阵：注意力模块的输出表示矩阵H ∈ R^(2×d)为源实体和关系。注意力矩阵 Asr 表示源实体应该在多大程度上关注自己的信息而不是关系的信息，反之亦然。
多头注意力：通过不同参数集对查询、键和值进行多个线性投影，从而产生多个查询、键和值。在每组查询、键和值上进行自注意力机制，然后最终的值向量被连接起来并进行线性变换。

前馈网络：应用逐令牌的前馈网络以产生最终的输出表示矩阵Ho。其中W1 ∈ Rd×dh, b1 ∈ Rdh, W2 ∈ Rdh×d, b2 ∈ Rd是可训练的参数。与自注意力不同，逐令牌的前馈变换独立地转换序列中的所有元素（在我们的情况下是两个元素），而不考虑它们之间的相互作用。
解码器：对三元组进行评分。首先创建eo，对于TwoMult解码器，eo等于 ˜er；对于Tucker解码器，eo是由核心张量Wc生成的 ˜es 的投影，其参数受到 e˜r 的影响。然后通过将eo与实体嵌入矩阵相乘来计算分数。最后通过将分数应用逻辑Sigmoid函数得到最终概率。

模型结构图如下：

实验结果与分析

我们在FB15k-237和WN18RR两个标准链接预测基准数据集上进行了实验。实验结果表明，SAttLE模型在显著降低66.9%的嵌入维度的同时，与最先进的模型相比，实现了竞争性的性能，与前五名竞争对手相比平均降低了维度。

实验结果如下表所示：

MRR——模型正确预测链接的排名的平均倒数
Hits@k——在模型预测的前k个结果中正确链接出现的次数

表2清楚地展示了SAttLE与竞争对手相比的出色性能，并且嵌入维度显著较低。总体而言，SAttLE在WN18RR上具有第二好的性能。此外，除了CoKE和HittER之外，SAttLE在FB15k-237上击败了大多数最先进方法。

表3展示了在FB15k-237和WN18RR上，当嵌入维度d = 32时的结果。MuRP和ATTH的结果均取自（Chami等人，2020年）。最佳结果以粗体显示。

表4展示了在FB15k-237上使用不同嵌入维度（DoE）对我们的两个解码器（即TwoMult和Tucker）的结果。

表5展示了在FB15k-237和WN18RR上的参数效率。与CoKE和HittER使用的多个编码器块和低数量的头相比，我们可以通过一个编码器块和增加头的数量来降低模型复杂度并获得有竞争力的性能。另一方面，正如之前讨论的，由于嵌入维度较低，我们的模型具有显著较低的参数数量（#EFP）。特别是，在具有大量实体和关系的庞大知识图谱（KGS）的情况下，这两个参数减少更为重要和显著。通过这种方式，SAttLE模型在处理大规模知识图谱时，不仅能够有效地减少所需的参数数量，还能保持或提高链接预测的性能，这对于计算资源的有效利用和模型的可扩展性至关重要。

结论与未来工作

我们介绍了SAttLE，这是一个由自注意力机制驱动的模型，用于在低维度空间中嵌入知识图谱。我们的基于Transformer的方法能够有效地模拟实体和关系之间的依赖性和交互性。

未来的研究者可以考虑我们工作的几种扩展。第一个是利用我们编码器的表达性表示，并附加更有效的解码方法。我们没有使用任何正则化方法，因此添加一种适当的正则化方法，如Lacroix等人（2018年）提出的那样，可能会导致显著的改进。最后，我们相信，人们可以仅仅包容性地微调我们模型的大量超参数，以探索一个合适的设置并获得更好的结果。