问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

科学家研发细粒度检测框架,能识别长文本中的AI内容,填补文本检测的空白

创作时间:
作者:
@小白创作中心

科学家研发细粒度检测框架,能识别长文本中的AI内容,填补文本检测的空白

引用
网易
1.
https://www.163.com/dy/article/JAK0LK9C05119734.html

近年来,随着大模型的迅速发展,其在生成文本方面的表现已经接近、甚至达到人类水平。来自浙江大学、西湖大学和腾讯 AI 实验室的研究人员注意到:AI 在文本优化和多样性增强中有着广泛应用。例如,在内容创作领域,AI 被用来改写文章以提升可读性和吸引力;在营销和广告领域,AI 被用来生成多样化的广告文案以便吸引不同的受众;在学术论文领域,AI 被用来改进论文的语言和结构,从而提高其学术论文质量。

而在之前的研究中,他们通过收集各种写作任务下的大模型数据,训练了一个有监督的 AI 文本检测模型。该模型能够有效检测一段文本是否由 AI 生成。然而,当他们改写文本部分时,惊讶地发现 AI 检测模型几乎无法区分。例如,将机器生成的一段长文本中的两个句子用大模型进行润色后,AI 检测模型会将新的文本判定为人类所写。

这个现象引发了他们的担忧,因为相比整段 AI 文本生成,在日常使用中更常见的是局部文本的 AI 润色或改写。这意味着可以通过改写文本的一小部分绕过传统的 AI 文本检测模型。

基于这个担忧,他们提出一种新颖的细粒度检测框架——改写文本片段检测(PTD,paraphrased text span detection),借此填补了 AI 文本检测领域的重要空白。日前,相关论文以《探测 AI 痕迹: 分辨文本中的 AI 改写片段》(Spotting AI’s Touch: Identifying LLM-Paraphrased Spans in Text)为题发表在国际计算语言学年会 ACL 2024 Findings(Findings of the Annual Meeting of the Association for Computational Linguistics)。


图 | 论文作者之一:李雅夫(来源:李雅夫)

不同于传统的文本级别检测方法,PTD 能够在一段长文本中识别出具体的 AI 改写片段,并为每一句话分配一个改写程度的分数。这种细粒度的检测是以往研究中所没有的,故能提供更精准的检测结果和更详细的文本分析。

通过构建一个专门的数据集 PASTED(paraphrased text span detection dataset),课题组验证了 PTD 模型在识别 AI 改写文本片段方面的有效性。实验结果显示:PTD 模型不仅在检测效果上表现优异,还能够推广到不同领域和未见过的模型生成的文本。这说明 PTD 具有很强的适应性和实用性,能够应对多种复杂的文本生成和改写场景。

据介绍,PTD 能够识别部分由 AI 润色和改写的文本片段,提供细粒度的检测结果,从而为决策提供更全面、细致的数据支撑。相比而言,传统的 AI 文本检测方法只能为整段文本打一个标签,而 PTD 则能够精确识别具体哪些段落被 AI 改动过,使决策更有说服力。

因此,预计 PTD 将在以下几个领域展现其应用价值:
在教育领域,它能防止学术抄袭;
在新闻和媒体领域,它能帮助识别假新闻和防止虚假信息传播;
在法律领域,它能保障证据的可靠性;
在商业和营销领域,它能优化广告文案的真实性和一致性;
在社交媒体领域,它能进行内容审核和用户行为分析,整体提升信息的真实性和可靠性。

总之,本次研究通过提出细粒度的改写文本片段检测框架,旨在解决现有检测方法的不足,探索更加精准和可靠的 AI 文本生成检测方法。未来,他们将进一步优化 PTD 模型,以提高其在复杂文本生成和改写场景中的检测精度和泛化能力。同时,他们计划扩展 PTD 数据集,涵盖更多领域和文本类型,以增强模型的适应性。最后,他们打算开放一个免费的检测平台,并接受用户反馈,在此基础上不断迭代优化模型,提升其检测能力和鲁棒性,为可信 AI 贡献一份力量。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号