牛津大学新研究:语义熵识破LLM幻觉
牛津大学新研究:语义熵识破LLM幻觉
近日,来自牛津大学的研究人员在Nature上发表了一篇关于利用语义熵来检测LLM幻觉的新方法的论文。这项研究为解决大语言模型胡编乱造的问题提供了新的思路。
研究背景
大语言模型(LLM)在生成文本时经常会出现胡编乱造的情况,这种现象被称为"幻觉"。当用户在搜索简单语法时,如果网页上排名前几的都是由大模型生成的错误答案,不仅会浪费用户的时间,如果涉及医学、法律等专业领域,还可能造成严重的后果。因此,相关的研究从未停止。
研究方法
牛津大学计算机科学家Sebastian Farquhar等人设计了一种基于LLM确定的语义熵(相似性)来度量大模型答案中语义层面的不确定性。具体做法是让第一个LLM针对同一问题多次产生答案,并由第二个LLM(裁判)来分析这些答案的语义相似性。同时,为了验证以上判断的准确性,再启用第三个LLM,同时接收人类的答案和第二个LLM的评判结果进行比较,做到了无监督,但有理有据。
整个过程简单来说就是:如果想检查LLM是否在胡编乱造,就反复问同一个问题。如果每次给出的答案都不一样,那就不对劲了。
实验结果
实验结果表明,本文采用的语义熵方案优于所有基线方法。在Nature的一篇评论文章中,皇家墨尔本理工大学计算机技术学院院长Karin Verspoor教授表示,这是一种「Fighting fire with fire」的方法。她指出,虽然用一个LLM来评估另一种基于LLM的方法似乎是在循环论证,而且可能有偏差,但这种方法确实能带来很多启发,有助于其他相关问题的研究,包括学术诚信和抄袭,使用LLM创建误导或捏造的内容。
技术细节
LLM的幻觉通常被定义为生成「无意义或不忠实于所提供的源内容的内容」,本文关注幻觉的一个子集——「虚构」,即答案对不相关的内容很敏感(比如随机种子)。检测虚构可以让基于LLM构建的系统,避免回答可能导致虚构的问题,让用户意识到问题答案的不可靠性,或者通过更有根据的搜索,来补充或恢复LLM给出的回答。
研究人员使用概率工具,来定义并测量LLM所产生内容的语义熵——根据句子含义计算的熵。因为对于语言来说,尽管表达方式不同(语法或词汇上不同),但答案可能意味着相同的事情(语义上等效)。而语义熵倾向于估计自由形式答案的含义分布,而不是单词或单词片段的分布,符合实际情况,同时也可以看作是随机种子变异的一种语义一致性检查。
实验评估涵盖了问答知识(TriviaQA)、常识(SQuAD 1.1 )、生命科学(BioASQ)和开放知识域自然问题 (NQ-Open)。还包括检测数学文字问题 (SVAMP) 和传记生成数据集 (FactualBio)中的混淆。实验采用嵌入回归方法作为强监督基线。
结论
语义熵在检测错误方面的成功表明:LLM更擅长「知道他们不知道什么」。语义熵作为克服混淆的策略建立在不确定性估计的概率工具的基础上。它可以直接应用于任何LLM或类似的基础模型,无需对架构进行任何修改。即使当模型的预测概率不可访问时,语义不确定性的离散变体也可以应用。