知识图谱:机遇与挑战
知识图谱:机遇与挑战
知识图谱作为人工智能领域的重要研究方向,近年来在推荐系统、问答系统、信息检索等多个领域展现出巨大的应用潜力。本文将从知识图谱的定义、研究现状、应用场景以及面临的技术挑战等方面进行深入探讨,帮助读者全面了解这一前沿技术。
基本信息
本文主要讨论知识图谱的相关概念、研究现状及其在人工智能系统中的应用。关键词包括:知识图谱、人工智能、图嵌入、知识工程、图学习。
一、概述
1. 什么是知识图谱?
- 知识库是一个典型的数据集,它以三元组的形式表示现实世界的事实和语义关系。
- 将三元组表示为以边为关系、以节点为实体的图时,称为知识图谱。
- 知识图谱和知识库是同一个概念,可以互换使用。
- 知识图谱的模式可以定义为本体,它显示了特定领域的属性以及它们之间的关系。
- 构建知识图谱的一个重要阶段是本体的构建。
知识图谱的一个例子。在这个知识图谱中,(e1, r1, e2)是一个三元组,表示e1和e2通过关系r1连接
2. 知识图谱研究现状
下图说明了关于知识图的最流行的研究路线。其中,人工智能系统是利用知识图谱作为基础的服务,应用领域是知识图谱所到达的领域。列出这两条研究线是为了讨论知识图谱的机会。另外五条研究线是对应五个任务的五个主要知识图谱技术。
a. 知识图谱嵌入:
- 知识图谱嵌入是知识图谱研究的核心问题之一。
- 该任务旨在将知识图谱的实体和关系映射到低维向量空间,从而有效地捕获知识图谱的语义和结构。
- 然后,利用机器学习模型对得到的特征向量进行有效学习。
- 三种主要的基于三元组事实的嵌入方法如下:
- 基于张量分解的方法
- 基于翻译的方法
- 基于神经网络的方法。
b. 知识获取:
- 知识获取重点是知识图的建模和构建。
- 通常,知识是通过使用映射语言(如R2RML)从结构化源导入的。
- 此外,可以采用关系、实体或属性提取方法从非结构化文档(如新闻、研究论文和专利)中提取知识。
c. 知识图谱补全:
- 知识图谱补全旨在通过预测额外的关系和实体来提高知识图谱的质量。
- 预测关系任务通常采用链接预测技术生成三元组,然后为三元组分配合理性评分。
- 预测实体任务使用实体预测方法从外部来源获取和集成进一步的信息。
d. 知识融合:
- 知识融合专注于从不同来源捕获知识并将其整合到知识图中。
- 知识融合方法对于生成和完善知识图都很有用。
- 最近,实体对齐已成为实现知识融合任务的主要方法。
e. 知识推理:
- 知识推理旨在基于现有数据推断出新事实。
- 即推断出两个未连接实体之间的新关系,形成新的三元组。
- 通过推理出错误的事实,知识推理有能力识别错误的知识。
- 知识推理的主要方法包括基于逻辑规则的、基于分布式表示的和基于神经网络的方法。
f. AI系统:
- 知识图谱被广泛应用于人工智能系统,如推荐系统、问答系统和信息检索工具。
- 知识图中信息的丰富性增强了这些解决方案的性能。
g.应用领域:
- 知识图谱在教育、科研、社交媒体和医疗等各个领域都有广泛的应用。
二、AI系统中的知识图谱
1. 推荐系统
推荐系统会学习目标用户对一组物品的偏好,并生成一组具有相似特征的建议项。推荐系统是解决信息爆炸问题的有效方法,并被应用于各个领域以增强用户体验
a. 传统推荐系统:
开发推荐系统的传统方法有两种,即基于内容的推荐方法和基于协同过滤的推荐方法。
基于内容的推荐系统:
首先分析项目的内容特征(例如,描述、文档),并由目标用户评分。然后,推荐系统通过使用机器学习模型来学习用户兴趣。因此,这些系统能够根据目标用户的偏好有效地向他们推荐热门项目。
一些推荐系统利用原始查询结果的内容为用户发现他们可能感兴趣的高度相关的项目。这些系统采用机器学习技术或统计方法(如相关性)来计算与用户访问过的项目高度相似的项目。
另一组基于内容的推荐系统采用词典等词汇引用,利用用户查询结果的语义关系向用户推荐可能直接满足其信息需求的高度语义相关的项目。
基于协同过滤的推荐系统:
通过对相似用户进行聚类来推断用户偏好,而不是提取物品的特征。
传统的基于协同过滤的系统面临着数据稀疏和冷启动问题。
由于数据稀疏,推荐系统无法有效地准确学习用户偏好。
另一方面,冷启动问题使得在物品或用户是新的情况下更难进行推荐,因为没有历史数据或真实数据。
由于需要丰富的用户信息来实现有效的推荐,因此推荐系统在实践中往往面临挑战。
面临隐私问题。如何在保护用户隐私的同时实现个性化推荐。
b. 基于知识图谱的推荐系统
基于知识图的推荐系统将知识图整合作为辅助信息,并利用用户和项目网络来学习项目-用户、项目-项目和用户-用户之间的关系。
基于知识图谱的推荐系统示例
与传统的推荐系统相比,基于知识图谱的推荐系统具有以下优势:
- 更好的数据表示:一般来说,传统的推荐系统存在数据稀疏问题,因为用户通常只与少量的物品有经验。然而,在知识图谱中实体及其连接的丰富表示有助于解决这个问题。
- 缓解冷启动问题:当数据集中有新用户或物品时,传统的推荐系统很难进行推荐。在基于知识图谱的推荐系统中,通过知识图谱中实体之间的关系可以获取有关新物品和用户的信息。
- 推荐的可解释性:用户和推荐物品通过知识图谱中的链接相互连接。因此,推理过程可以通过知识图谱的传播来轻松说明.
2. 问答系统
传统的问答系统将文本问题与非结构化文本数据库中的答案进行匹配。在搜索过程中,分析问题和答案之间的语义关系;然后,系统将问题和答案进行最大语义相似性匹配。最后,系统输出答案。然而,由于分析大量非结构化数据而获得答案,这导致了传统问答系统效率的下降。
为了解决这个问题,许多研究都集中在利用结构化数据进行问题回答,特别是基于知识图的问答系统
基于知识图谱的问答系统的图示。在这个领域中有两种主要类型的问题:简单问题和多跳问题。简单问题仅通过参考单个三元组来回答,而多跳问题需要结合多个实体和关系。
与传统的问答相比,基于知识图谱的问答系统的优势可以总结如下:
- 提高效率:知识图谱问答系统不需要从大量的文本数据中搜索答案,这些数据可能包含大量无用的数据项,而是专注于具有相关属性和语义的实体。因此,它们显著减少了搜索空间,并有效高效地提取答案。
- 多跳问题回答:与传统方法产生的答案相比,基于知识图谱的问答系统可以更复杂和复杂,因为知识图谱中的事实和概念可以通过多跳问题回答相结合。
3. 信息检索
信息检索使检索系统能够将最终用户的查询与相关文档(如网页)进行匹配,基于知识图谱的信息检索引入了一种新的研究方向,利用知识图谱来提高搜索引擎的性能和结果的可解释性。
通常,这些系统依赖于基于知识图谱中的实体和关系的高级文档表示然后,这些形式化和机器可读的表示与用户查询匹配,以检索更相关的文档。
知识图谱还可以支持查询扩展的方法,通过添加相关概念(例如同义词)来丰富用户查询。
与传统信息检索相比,基于知识图谱的信息检索具有以下优势:
- 项目的语义表示:项目根据支持语义相似性、推理和查询扩展的正式和相互关联的模型进行表示。这通常允许系统检索更相关的项目,并使系统更易解释。
- 高搜索效率:基于知识图谱的信息检索可以利用项目的先进表示显著减少搜索空间(例如,丢弃使用不同含义的相同术语的文档),从而提高效率。
- 准确的检索结果:在基于知识图谱的信息检索中,根据知识图谱中实体之间的关系分析查询和文档之间的关联。这比查找查询和文档之间的相似性更准确。
三、应用与潜力
1. 教育
在大数据时代,由于教育数据的复杂和非结构化,数据处理变得具有挑战性。因此,智能教育系统倾向于应用结构化数据,如知识图谱。
2. 科学研究
研究知识并识别相关材料。它们通常以相互关联的方式描述文件(例如研究文章,专利),参与者(例如作者,组织),实体(例如主题,任务,技术),以及其他背景信息(例如项目,资金)
3. 社交网络
对各种社会知识图进行建模,并应用于分析来自社会网络的关键信息。
eg. GraphRec(用于社交推荐的图神经网络框架)。他们考虑了两种社会知识图:用户-用户图和用户-物品图。然后,他们从两个知识图中提取信息用于学习任务。因此,他们的模型可以提供准确的社交推荐,因为它聚合了用户之间的社交关系以及用户与物品之间的交互。
4. 医疗
随着医疗信息的爆炸式增长,医学知识分析在不同的医疗保健系统中发挥着重要作用。因此,研究的重点是将医学信息集成到知识图中,使智能系统能够快速正确地理解和处理医学知识。
- 医疗推荐系统
- 错误信息检测
- 药物发现
四、技术挑战
1. 知识图谱嵌入
知识图谱嵌入的目的是在低维向量空间中有效地表示知识图,同时仍然保持语义。首先,在给定的知识图谱中,将实体和关系嵌入到密集的维度空间中,并定义一个评分函数来衡量每个事实(三元组)的可信性。然后,将事实的合理性最大化,以获得实体和关系嵌入
a. 基于张量分解
- 基于张量分解的方法的核心思想是将知识图谱中的三元组转换为3D张量。
- 如下图所示,张量X∈Rm×m×n,其中m表示实体个数,n表示关系个数,包含n个切片,每个切片对应一种关系类型。
- 如果满足条件Xijk = 1,则知识图谱中存在三元组(ei, rk, ej),其中e和r分别表示实体和关系。
- 否则,如果Xijk = 0,则知识图谱中不存在这样的三元组。
- 然后,用由实体向量和关系向量组成的嵌入矩阵表示张量。
b. 基于翻译的方法:
基于翻译的方法利用了基于翻译不变性的评分函数。翻译不变性解释了两个词的向量之间的距离,这个距离由它们的语义关系向量表示。
经典方法: TransE、TransH、TransR
c. 基于神经网络的方法
使用神经网络来表示知识图的三元组
- SME设计了一个能量函数来进行语义匹配,利用神经网络来衡量知识图中每个三元组(h,r,t)的置信度。
- ConvKB利用卷积神经网络(CNN)来进行知识图嵌入。ConvKB将每个三元组(h,r,t)表示为一个三行矩阵A,该矩阵是卷积层的输入,用于获取特征图。随后,特征图被串联为一个向量,然后计算分数以估计三元组的置信度。
- R-GCN是图神经网络(GNNs)的改进。R-GCN通过提供关系特定的转换来表示知识图。
生成知识图嵌入的现有方法仍然存在严重的几个限制。许多已建立的方法只考虑知识图的表面事实(三元组)。然而,额外的信息,如实体类型和关系路径,被忽略了,这可以进一步提高嵌入的准确性。大多数不考虑额外信息的传统方法的性能令人不满意。
固有关系指的是两个不相连实体之间的间接关系,但并没有得到有效的表示。
2. 知识获取
知识获取是将来自不同来源的数据结合并生成新知识图的关键步骤。这些知识是从结构化和非结构化数据中提取出来的。知识获取的三种主要方法是关系提取、实体提取和属性提取。
现有的知识获取方法仍然面临低准确性的挑战,这可能导致知识图不完整或含有噪音,并阻碍下游任务。
- 通过生成领域特定的知识图来有效完成知识获取任务是一个重要问题
- 跨语言实体提取和多语言知识图的生成至关重要。
- 多模态知识图谱构建
3. 知识图谱补全
知识图谱补全旨在通过使用链接预测和实体预测技术向现有知识图谱添加新的三元组。这些方法通常在知识图谱上训练机器学习模型,以评估新候选三元组的可信度。然后,他们将具有高可信度的候选三元组添加到知识图谱中。
然而,大多数当前的知识图补全方法只关注从封闭世界数据源中提取三元组。这意味着生成的三元组是新的,但三元组中的实体或关系需要已经存在于知识图中。
- 从现有知识库之外提取潜在对象。(开放世界知识图补全方法)
- 仍然存在低准确性的问题。主要原因是数据来源通常更加复杂和嘈杂。
- 预测的新实体与现有实体的相似性可能会误导结果。
- 知识图谱补全方法假设知识图谱是静态的,无法捕捉知识图谱的动态演化。
- 时间知识图谱完成方法将时间戳整合到学习过程中。
- 探索了时间敏感的事实,并显着提高了链接预测的准确性。
- 时间知识图谱模型考虑时间信息可能效率较低
4. 知识融合
知识融合旨在结合和整合来自不同数据源的知识。这通常是生成知识图的必要步骤
- 跨语言知识融合
- 实体消岐
- 多模态知识融合,匹配具有不同形式的相同实体并生成多模态知识图。
5.知识推理
知识推理的目标是推断新知识,比如两个实体之间的隐含关系
- 基于逻辑规则的知识推理旨在根据随机游走和逻辑规则发现知识。
- 基于分布表示的知识推理将实体和关系嵌入到一个向量空间中,以获得分布表示。
- 基于神经网络的知识推理方法利用神经网络根据图中的知识体推断新的三元组。
知识推理中有两个任务:单跳预测和多跳推理。
- 单跳预测预测给定两个元素的三元组中的一个元素,
- 多跳推理预测多跳逻辑查询中的一个或多个元素。即在多跳推理场景中,找到对典型问题的答案并形成新的三元组需要预测和填补多个边缘和节点。与
- 与单跳预测相比,多跳推理实现了更精确的三元组形成
多源知识推理:知识推理丰富了现有的知识图,并为下游任务带来了好处。然而,推断的新知识有时是不确定的,新三元组的真实性需要验证。此外,新知识与现有知识之间的冲突也应该被发现。
总结
知识图谱在为各个领域创造许多智能服务和应用方面发挥了重要作用。在这项调查中,我们从机会和挑战的角度概述了知识图谱。我们首先介绍了关于知识图谱的定义和现有研究方向,以提供对知识图谱的初步分析。之后,我们讨论了利用知识图谱的人工智能系统。然后,我们展示了几个领域中一些代表性的知识图谱应用。此外,我们分析了当前知识图谱技术的局限性,这导致了严重的技术挑战。我们期望这项调查能激发关于未来研究和发展活动中涉及知识图谱的新想法和深刻见解。
本文原文发表在Artificial Intelligence Review 2023