Relphormer:用于知识图谱表示的关系图Transformer
Relphormer:用于知识图谱表示的关系图Transformer
Transformer架构在知识图谱表示学习领域遇到了一些挑战,如边和节点的异构性、拓扑结构和文本描述的处理以及任务优化的普遍性问题。为了解决这些问题,研究者提出了Relphormer模型,通过Triple2Seq子图采样、结构增强自注意力机制和掩蔽知识建模等创新方法,实现了在多个数据集上的性能提升。
背景与动机
完全应用Transformer架构到知识图谱有三个非平凡的挑战:
- 边和节点的异构性:知识图谱是具有丰富语义边缘的关系图,多条边缘具有不同的关系信息,导致不同的异构表示。
- 拓扑结构和文本描述:知识图谱是具有两种类型知识的文本丰富网络,即拓扑结构和文本描述。不同的节点具有独特的拓扑和文本特征。
- 任务优化的普遍性:大多数以前的研究遵循具有预定义评分函数的知识嵌入范式,这种策略需要优化不同的对象用于实体/关系预测,并在推理中对所有可能的三元组进行昂贵的评分。
为了解决上述问题,研究者探索了Transformer架构在知识图谱表示中的应用,并提出了关系图Transformer(Relphormer)。
方法论
Triple2Seq子图采样
为了解决知识图谱中边和节点的异构性问题,研究者提出了Triple2Seq方法,使用上下文子图作为输入序列来编码局部结构信息。上下文子图τG被定义为包含实体和关系的三元组集合,由中心三元组τc和其周围的邻域三元组集合τcontext组成:
τG = τc ∪ τcontext
其中,τcontext是中心三元组τc的固定大小邻域三元组集合。为了更好地捕获局部结构特征,研究者在训练期间使用动态采样策略,并为每个epoch中的同一中心三元组随机选择多个上下文子图。
结构增强自注意力
为了保留上下文子图中重要的结构信息,研究者提出了结构增强自注意力机制。该机制使用注意力偏置来捕获上下文子图中节点对之间的结构信息。注意力偏置表示为ϕ(i, j),是节点vi和节点vj之间的偏置项:
aij = (hiWQ)(hjWK) / √d + ϕ(i, j)
ϕ(i, j) = fstructure(A1, A2, ..., A~m)
其中A是规范化的邻接矩阵,WQ和WK是Transformer模块中的Query-Key矩阵。hi和hj表示隐藏表示,d是隐藏维度。结构编码器fstructure是一个线性层,输入是Am,其中m是超参数。
掩蔽知识建模
受自然语言处理中掩蔽语言建模的启发,研究者提出了掩蔽知识建模机制,用于统一的知识图谱表示学习。给定一个上下文子图节点序列τG,研究者随机掩蔽中心三元组中的标记,然后预测这些被掩蔽的标记。具体来说,被掩蔽的中心三元组将分别是关系预测任务中的头实体或尾实体。掩蔽知识建模的任务是在给定掩蔽节点序列τM和上下文子图结构AG的情况下,预测三元组τ缺失的部分:
Relphormer(MASK(τG), AG) → Y
其中Y ∈ R|E| + |R|。具体来说,研究者只随机掩蔽序列中的一个标记,以便更好地整合上下文信息,这是由于上下文子图的独特结构。
实验结果
研究者在六个数据集上评估了Relphormer模型的性能,包括FB15k-237、WN18RR、YAGO3-10、FB15k、WN18和NELL-995。实验结果表明,Relphormer在所有数据集上都取得了优于基线模型的性能,特别是在FB15k-237和WN18RR数据集上,性能提升尤为显著。
总结
Relphormer通过创新的Triple2Seq子图采样、结构增强自注意力机制和掩蔽知识建模等方法,成功解决了知识图谱表示学习中的多个挑战。实验结果表明,Relphormer在多个数据集上都取得了优于基线模型的性能,为知识图谱表示学习领域提供了新的思路和方法。
论文链接:Relphormer:Relational Graph Transformer for Knowledge Graph Representations
代码链接:https://github.com/zjunlp/Relphormer