问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

GNER:通过引入负样本革新生成式实体识别

创作时间:
作者:
@小白创作中心

GNER:通过引入负样本革新生成式实体识别

引用
CSDN
1.
https://blog.csdn.net/qq_27590277/article/details/136408808

生成式实体识别(Generative Named Entity Recognition,GNER)是自然语言处理领域的一个重要研究方向。近期,一篇发表在arXiv上的论文《Rethinking Negative Instances for Generative Named Entity Recognition》提出了一种创新方法,通过引入负样本显著提升了实体识别的性能。本文将详细介绍这一最新研究进展。

研究背景与动机

近年来,生成式大语言模型(如ChatGPT)在自然语言处理任务中取得了巨大成功,但在实体识别方面仍存在不足。目前主流的研究方向是通过微调开源大语言模型(如LLaMA)来提升实体识别能力。然而,现有方法往往只关注文本中的实体部分(正样本),而忽略了非实体部分(负样本)的价值。

在传统的分类范式下(如BERT tagging),负样本在训练过程中扮演着重要角色。受此启发,研究者们深入探索了生成式大语言模型中负样本的影响。实验结果表明,负样本的引入可以显著提升模型性能,主要体现在两个方面:

  1. 包含实体上下文的负样本有效促进了模型对实体的识别能力
  2. 它们帮助模型更清晰地界定实体边界

负样本的作用

研究者提出了一种将实体周围上下文引入训练的方法。对于每个实体,引入最靠近实体的若干单词作为训练的负样本,其他词用省略号代替,称为上下文长度。通过不断增大实体的上下文长度,发现模型效果有所提升并逐渐饱和。

研究还发现,增强实体边界的prompt设计有利于模型对实体边界的判别能力。但在引入负样本后,模型预测的长度变长,也带来了一些问题,如缺词漏词等,需要在后处理阶段加以解决。

结构化处理方法

为应对上述挑战,研究者提出了一套结构化处理方法,核心在于求解序列A和序列B的最长公共子序列(LCS)。具体优化包括:

  1. 算法复杂度优化:基于贪心算法在O(n)时间内解决A=B和B是A的子序列的情况。对于其他情况,基于实体识别文本中重复单词较少的前提,提出一个O(nlogn)复杂度的算法,将LCS问题转化为LIS问题,并构建有向无环图求解。
  2. 匹配条件优化:通过back tokenization方法优化LCS算法中的匹配条件,解决模型词表导致的生成词与原序列不匹配问题。

实验结果

实验重点评估了模型在零样本场景下的表现,即模型在训练过程中未见过的实体类别上的性能。结果显示,GNER模型在7个数据集上都实现了稳定提升,783M参数量的GNER-T5模型足以超越所有基线模型。

在监督设置下,GNER模型同样取得了稳定提升。研究还发现,即使在较小模型上,该方法也展现了卓越性能,特别是基于Flan-T5-large的模型在两种设置下均超越了所有基线模型。随着模型参数量的增加,在零样本设置下,模型性能仍有很大提升潜力。此外,beam search带来的自我修正机制有助于进一步增强模型性能。


总结

这项研究通过引入负样本和创新的结构化处理方法,显著提升了生成式实体识别模型的性能。研究结果表明,负样本在促进实体识别和界定实体边界方面具有重要作用。这一发现不仅为实体识别任务提供了新的解决方案,也为大语言模型的微调策略提供了重要参考。

论文地址:https://arxiv.org/abs/2402.16602
代码开源:https://github.com/yyDing1/GNER

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号