资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

毕业论文AI率自查神器，复旦、UCSD、UIUC等提出多语种通用AI内容检测器

创作时间:

作者:

@小白创作中心

毕业论文AI率自查神器，复旦、UCSD、UIUC等提出多语种通用AI内容检测器

引用

CSDN

https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/144997713

复旦大学、UCSD、UIUC等机构的研究团队提出了一种创新的AI内容检测器ImBD，该检测器支持六大主流语言的AI检测，涵盖多任务检测（润色、扩写、改写、纯生成）。ImBD通过模仿机器写作风格并优化风格偏好，实现了对AI生成内容的精准检测。

核心亮点

通用检测：支持六大主流语言的AI检测，涵盖多任务检测（润色、扩写、改写、纯生成）。
多语言支持：覆盖英语、中文、西班牙语、葡萄牙语等多种主流语言，确保地区公平性。
训练高效性：低成本训练，仅需500对样本、5分钟训练时间，检测性能媲美甚至超越商用检测器。
代码开源：提供免费在线体验、代码和数据集的全面开放。

问题背景

随着大语言模型（LLMs）的快速发展和广泛应用，AI辅助写作已经成为一种普遍现象。然而，这种技术的普及也带来了新的挑战，特别是在需要严格管控AI使用的领域，如学术写作、新闻报道等。

与传统的纯机器生成文本不同，当前更常见的场景是用户利用AI对人类原创内容进行修改和润色，这种混合型的内容使得检测工作变得异常困难。如图1所示，相比于人类原创文本和纯机器生成文本之间的明显差异，机器修订文本往往与原始人类文本只有细微的改动。

图1. 人类撰写、机器生成和机器修订文本的对比分析

传统的机器生成文本检测方法主要依赖于预训练语言模型的token概率分布特征，这些方法假设机器生成的文本通常具有更高的对数似然或负概率曲率。然而，当面对机器修订文本时，这些方法的性能显著下降。

如图2所示，在检测机器修订文本时，即使是最先进的Fast-DetectGPT方法也出现了明显的性能下降。这种性能降低主要源于两个方面：首先，机器修订文本保留了大量人类创作的内容和领域特定术语，这些特征往往会误导检测器将文本判定为人类撰写；其次，随着GPT-4等新一代语言模型的出现，机器的写作风格变得更加微妙和难以捕捉。

特别值得注意的是，机器修订文本的特征往往体现在一些细微的文体特征上。如图2所示的例子，这些特征包括独特的词语选择（如倾向使用“stunning”、“once-in-a-lifetime”等词）、复杂的句子结构（如更多的从句使用）以及统一的段落组织方式。

这些风格特征虽然细微，但却是区分人类原创和机器修订文本的关键线索。然而，由于这些特征往往与人类创作的内容紧密交织，现有的检测方法难以有效捕捉和利用这些特征，这就导致了检测准确率的下降。

因此，如何在保留了人类创作内容的文本上准确识别机器修订的痕迹，是当前亟待解决的关键问题。这不仅关系到学术诚信的维护，也影响着在线信息的可信度评估。开发一种能够有效识别机器修订文本的检测方法，对于维护不同领域的内容质量和可信度具有重要意义。

基于风格模仿的机器修改文本检测框架ImBD

ImBD的核心创新在于将风格感知机制引入机器修改文本检测领域，首次提出了结合偏好优化和风格概率曲线的双重检测框架。不同于传统方法仅关注内容层面的概率差异，本文通过精确捕捉机器修改文本的风格特征，有效解决了当前检测方法在处理部分人工内容场景下的局限性。

2.1 问题形式化

在机器修改文本检测任务中，我们将输入文本表示为标记序列，其中为序列长度。核心目标是构建一个决策函数，通过评分模型判定文本是人类撰写（输出0）还是经过机器修改（输出1）。这种形式化将复杂的文本分析问题转化为可处理的二元分类任务。

2.2 基础理论

传统检测方法主要基于一个关键观察：机器生成倾向于选择高概率标记，而人类写作则展现更多样的概率分布。这种差异可以通过如下不等式形式化表达：

其中，原始人类文本记为，机器修订的文本记为，等式左端表示机器修改文本的对数概率，通过计算在扰动采样分布下的期望值来估计；右端则表示人类写作文本的对数概率及其对应的扰动期望值。

这个不等式反映了机器生成文本在扰动后往往出现更显著的概率下降，而人类写作文本则保持相对稳定的概率分布特征。如图3（左）所示，在纯机器生成文本中，这种差异表现得最为明显。然而，当涉及机器修改文本时，如图3（右）所展示的，两类文本的概率分布会出现显著重叠，导致传统检测方法失效。

图3. 基于概率曲线的人机文本区分效果对比图

2.3 偏好优化的风格模仿

为克服上述限制，我们提出通过偏好优化来增强模型对机器风格的感知能力。如图4（b）所示，这一机制的核心是构建文本对之间的偏好关系：将原始人类文本与其机器修改版本配对，通过这种配对可以在保持内容一致的同时突出风格差异。

图4. LLM风格偏好优化的模拟过程

基于Bradley-Terry模型，定义偏好分布：

其中，表示偏好机器修改文本而非人类文本的概率，这个概率随着奖励差值的增加而增长。为了实现这一目标，奖励函数被定义为：

这里的代表参考模型（通常是的初始状态）。通过这种奖励函数的设计，我们用策略模型而非奖励模型来表达偏好数据的概率。对于一个包含内容等价对的训练数据集，优化目标可以表示为：

通过优化这个目标函数，模型能够逐步调整以偏好机器修改文本的风格特征。如图4（a）所示，这种调整使得模型对机器风格特征（如“delve”这样的词）表现出更强的偏好。最终优化后的模型记为，它代表了一个与机器风格高度对齐的评分模型。

2.4 基于风格概率曲线的检测

在风格对齐的基础上，我们引入风格条件概率曲线（styleconditional probability curvature, Style-CPC）作为最终的检测机制：

通过这种度量，我们能够有效量化文本样本与机器风格的偏离程度。如图3对比所示，优化后的模型能够显著减少人类文本和机器修改文本分布的重叠，最终通过简单的阈值策略实现准确检测：

这种基于风格感知的检测框架不仅提高了对机器修改文本的识别准确率，更为重要的是，它为解决高级语言模型输出检测这一愈发重要的问题提供了新的思路。通过将注意力从内容转向风格特征，该方法展现出较强的泛化能力，特别是在处理包含用户提供内容的复杂场景时表现出明显优势。

实验结果

3.1 在GPT系列模型上的检测性能

在polish任务上，相比Fast-DetectGPT，ImBD在检测GPT-3.5和GPT-4o修订的文本时分别提升了15.16%和19.68%的性能；相比有监督模型RoBERTa-large，ImBD在GPT-3.5和GPT-4o的文本检测上分别提高了32.91%和47.06%的性能。在保持高检测性能的同时，推理速度仍保持高效，每1000词仅需0.72秒。

仅使用1000个样本和5分钟的SPO训练，ImBD就达到0.9449的AUROC分数，超过了使用大规模数据训练的商业检测工具GPTZero。

3.2 在开源模型上的检测性能

在检测Qwen2-7B、Llama-3、Mixtral-7B和Deepseek-7B四个开源模型修改的文本时，ImBD方法在XSum、SQuAD和WritingPrompts三个数据集上的平均AUROC达到0.9550，显著优于Fast-DetectGPT的0.8261。

3.3 不同任务场景下的检测鲁棒性评估

ImBD方法在rewrite（0.8739）、expand（0.9758）、polish（0.9707）和generate（0.9996）四个任务上全面超越现有方法,平均性能比Fast-DetectGPT提升22.12%，证明了其在不同任务和用户指令下的稳健性。

3.4 消融实验

与未使用模仿策略的基线模型相比，采用SPO优化的ImBD方法在GPT-3.5和GPT-4o的文本检测上AUROC分别提升了16%和20%；相比使用3倍训练数据的SFT（Supervised Fine-Tuning）方法，ImBD的AUROC在GPT-3.5和GPT-4o上分别高出30%和24%。

3.5 文本长度敏感性研究

当文本长度从30词增加到180词时，ImBD方法始终保持领先优势，且随着文本长度增加检测准确率稳步提升，展现出卓越的长文本处理能力。

3.6 多语言检测能力评估

ImBD在多语言文本检测中展示出优异的泛化能力，在西班牙语、葡萄牙语和中文的检测中分别达到0.8487、0.8214和0.8792的AUROC分数，全面超越Fast-DetectGPT等基线方法，且在部分基线方法（如DNA-GPT）失效的中文测试中仍保持稳定性能。

总结

这项工作提出了”模仿后检测”（Imitate Before Detect）范式来检测机器修改的文本，其核心是学习模仿LLM的写作风格。具体而言，论文提出了风格偏好优化方法来使检测器对齐机器写作风格，并利用基于风格的条件概率曲率来量化对数概率差异，从而实现有效检测。通过广泛的评估实验，ImBD方法相比现有最先进的方法展现出显著的性能提升。