预训练语言模型在关键词提取中的最新进展综述
预训练语言模型在关键词提取中的最新进展综述
关键词提取是自然语言处理(NLP)系统中的一个关键组件,用于从文档中选择一组短语,这些短语能够总结文档中讨论的重要信息。随着预训练语言模型(PLMs)的发展,关键词提取技术也取得了显著进展。本文将综述基于预训练语言模型的神经关键词提取模型的最新进展,包括单阶段和双阶段框架,并对比无监督和监督方法的优劣。
关键词提取是自然语言处理(NLP)系统中的一个关键组件,用于从文档中选择一组短语,这些短语能够总结文档中讨论的重要信息。通常,关键词提取系统可以显著加快信息检索的速度,帮助人们快速准确地从长文档中获取一手信息。
在过去的二十年中,关键词提取方法经历了从传统方法到深度学习方法的发展。随着预训练语言模型(PLMs)的发展,许多NLP任务发生了显著变化,即如何在特定任务中采用和利用预训练语言模型。因此,许多关键词提取模型采用PLMs作为嵌入层。
基于Transformer的模型通过遮掩语言模型和句子邻接训练目标,学习单词的双向表示。简单地使用从基于Transformer的预训练语言模型中获得的上下文嵌入代替传统的嵌入,已经在一系列NLP任务中达到了最先进的性能。因此,预训练语言模型被用作编码器,以获取词级、句子级和文档级的表示,以帮助下游任务。
1. 基于预训练语言模型的神经关键词提取模型
在关键词提取任务中,有两种常见的流程:单阶段和双阶段框架,如下图所示。前者主要指通过任务重构来解决关键词提取任务,通常将关键词提取任务视为序列标注任务。后者则代表一个更通用的框架,通常包括两个步骤:
(1)使用一些启发式方法提取一组作为候选短语的词语/短语;
(2)使用有监督或无监督的方法确定哪些候选短语是关键词。
通常,有监督的方法在特定领域任务中表现更好。然而,这种方法需要大量的人力来标注语料库,并且训练后的模型可能会过拟合,从而在其他关键词提取数据集上表现不佳。相反,无监督的方法不需要标注语料库,通常在不同领域中具有更好的数据泛化能力,但由于缺乏标注数据,性能往往不足。
1.1 两阶段无监督关键词提取模型
无监督关键词提取模型的候选关键词提取方法的主要步骤如下:
(1)通过StanfordCoreNLP工具对文档进行分词,并标注词性标签;
(2)通过Python包NLTK使用正则表达式基于词性标签提取候选短语。
在获得候选项后,通过各种策略估计每个候选项的重要性来确定关键词。重要性估计的方法分为两类:传统方法和基于嵌入的方法。
传统的无监督关键词提取系统主要包括:基于统计的方法、基于主题的方法、基于图的方法。
这些模型主要使用文档的不同特征(例如词频、位置、语言特性、主题、长度、词之间的关系、基于外部知识的信息等)来估计每个候选短语的重要性,并判断候选短语是否为关键词。然而,这些传统的无监督模型基于表层特征估计候选短语的重要性分数,忽略了自然语言的高级特征(例如句法和语义信息),这导致提取出错误的关键词。
近年来的研究逐渐转向基于嵌入的无监督关键词提取模型。这些模型利用预训练语言模型(如ELMo、BERT、RoBERTa等)所包含的高级语义特征,通过计算候选短语与文档之间的语义相似性,来更准确地评估候选关键词的重要性。相比传统方法,这些基于嵌入的模型显著提高了关键词提取的准确性和性能,成为了无监督关键词提取领域的前沿技术。
1.2 两阶段监督关键词提取模型
与两阶段的无监督方法不同,监督方法通常通过端到端的学习框架将候选关键词提取和关键词重要性估计结合起来,通过带有标注数据的指导,对整个模型进行关键词的排名和提取,并同时优化这两个阶段。
为了估计候选短语的重要性,类似于无监督模型,监督模型也采用了预训练语言模型(ELMo、BERT、RoBERTa)作为基础,来获取短语和文档的表示。
BLING-KPE将关键词提取表述为n-gram级别的关键词切分任务,通过结合预训练嵌入(如ELMo)到卷积Transformer网络中来建模n-gram表示,从而确定候选词是否为关键词。BLING-KPE相比之前的模型取得了显著提升。
SMART-KPE利用外部知识来辅助关键词提取,表明在网页关键词提取中引入多模态信息,如字体、大小和DOM特征,可以进一步提升开放领域网页关键词提取的效果。
SKE-BASE-RANK提出了一种基于跨度的关键词提取模型,以在上下文中建模候选词与文档之间的关系。
JointKPE提出了一种基于预训练语言模型的开放领域关键词提取方法,该方法能够在提取关键词时捕捉到局部的短语性和全局的信息性。JointKPE通过估计关键词在整个文档中的信息性来学习关键词的排名,并在关键词切分任务上进行联合训练,以保证候选关键词的短语性。
KIEMP提出了从多个角度估计每个候选词的重要性分数,并引入一个匹配模块,以匹配文档和候选词之间的高级概念,从而增强提取关键词的相关性。
HyperMatch提出了一个新的匹配框架,旨在为了提取更相关的关键词,并探索了在双曲空间中的关键词提取。具体而言,HyperMatch首先将短语和文档的表示映射到相同的双曲空间,并通过庞加莱距离显式地建模候选短语和文档之间的相关性,以提取关键词。
1.3 单阶段监督关键词提取模型
两阶段方法的一个主要局限在于,它们独立地对每个候选短语进行标签分类,忽略了候选短语之间可能存在的依赖关系。因此,近期的研究将关键词提取任务表述为序列标注问题,并展示了使用线性链条件随机场(CRF)在这一任务上提升了模型性能。
SKE-BASE-CLS和SKE-BASE-RANK模型,这些模型通过预训练语言模型直接从所有文档标记中提取基于跨度的短语表示,并进一步学习它们与对应文档之间的交互,以获得更好的排名结果。这种模型还能够提取重叠的关键词短语。
2. 结论
2.1 实验对比
展示了在DUC2001(Wan和Xiao, 2008b)、Inspec(Hulth, 2003)、SemEval2010(Kim et al., 2010)和SemEval2017(Augenstein et al., 2017)数据集上,传统无监督方法和两阶段无监督关键词提取模型 中讨论的基于嵌入的无监督关键词提取模型的结果。
展示了在KP20k(Meng et al., 2017)和OpenKP(Xiong et al., 2019)数据集上,两阶段监督关键词提取模型和单阶段监督关键词提取模型中讨论的各种监督关键词提取系统的结果。
通过实验对比得出结论 :
两阶段嵌入式系统优于传统方法:尽管传统的两阶段关键词提取方法能够利用多种特征(如词频、位置、语言学特性等),但使用静态嵌入的两阶段系统表现更佳,这证明了研究基于嵌入的方法的必要性。
预训练语言模型的优势:在大多数情况下,基于预训练语言模型(PLMs)的嵌入式系统表现优于使用静态嵌入的方法。然而,这种优势依赖于所采用的重要性估计策略。因此,如何有效地利用预训练的嵌入来估计候选关键词的重要性分数是提升关键词提取性能的关键。
长文档关键词提取的挑战:基于嵌入的方法在处理长文档数据集(如SemEval2010)时的改进有限,且所有无监督方法在长文档上的表现都不佳,这表明长文档的关键词提取依然是一个挑战性问题。
两阶段方法的优越性:两阶段监督关键词提取方法优于单阶段方法,且在处理长文档和超长文档时,前者具有更高的可扩展性和适应性。
2.2 结论与未来方向
提高候选关键词质量:需要更好的策略来生成具有更高召回率的候选关键词,以提升关键词提取的性能上限。研究表明,BERT的中间层包含丰富的语言信息,这可以用于改进候选关键词生成策略。
改进评估指标:现有评估指标无法有效识别语义上等同的关键词对。未来需要开发基于语义匹配的评估指标,例如类似BERTScore的语义感知评估指标,以更准确地评估关键词提取系统的表现。
减少过度生成错误:过度生成错误会导致关键词提取系统错误地将某些候选短语标记为关键词。可以通过引入语义加权的评估指标来解决这一问题。
处理长文档:长文档的关键词提取面临两个主要挑战:预训练语言模型的上下文建模限制和候选短语重要性分数估计的困难。需要探索如何在长文档中有效提取关键词。
改进领域泛化:现有研究主要集中在新闻和科学文档上,缺乏其他领域的数据集和研究。未来的任务是将关键词提取模型迁移到不同领域,以实现更广泛的领域泛化。
探究预训练语言模型的应用:研究如何充分利用预训练语言模型中的层次语言信息来提高关键词提取性能。例如,BERT逐层捕捉不同层次的语言信息,这可以为关键词提取提供有效支持。