大模型笔记：幻觉 hallucination

创作时间:

作者:

@小白创作中心

大模型笔记：幻觉 hallucination

引用

CSDN

https://m.blog.csdn.net/qq_40206371/article/details/136590028

1 介绍

"幻觉" (Hallucination) 是指模型生成自然流畅、语法正确但实际上毫无意义且包含虚假信息即事实错误的文本，以假乱真，就像人产生的幻觉一样。例如，即使现在的ChatGPT-4，你问他一些有确切答案的问题，他也会"说胡话"。看起来语法语义上没什么问题，但那个赛季上港是21胜5平4负积68分（数据来自懂球帝）。

2 幻觉分类

内部幻觉 (intrinsic hallucination)：生成的文本与给定源文本出现不忠实 (unfaithfulness) 或不一致 (inconsistency) 的现象。常见于文本摘要任务中，生成的摘要与原文不一致。
外部幻觉 (extrinsic hallucination)：生成内容在源文本中并未提及，虽然不能找出相关证据，但也不能断言这就是错误的。

3 幻觉的成因

生成的文本 𝑌 由源文本 𝑋 和语言模型里的先验知识 𝐾 共同决定。由于一般认为给定的源文本都是事实正确的 ground-truth，所以出现的幻觉一般都会归结于语言模型本身包含了错误事实。
语言模型中的先验知识都来自于训练语料，用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息。这些错误知识都会被学习，存储在模型参数中。
模型生成文本时会优先考虑自身参数化的知识，所以更倾向生成幻觉内容。
另一方面，模型训练和推理时的差异，也是导致推理时更容易生成幻觉的原因之一。训练通常是teacher forcing，以 ground-truth 作为后续预测 token 的前缀输入；推理则根据历史序列生成来预测下一个 token。

4 不一致性（inconsistency）的分类

"不一致" (inconsistency)——用来描述这些文本生成的幻觉问题的另一个更常见的术语

模型自身不一致 (self-inconsistency)：模型生成的回复与对话历史或与自身已生成回复相矛盾（内部幻觉）。与对话历史的不一致性问题一般来自于历史信息的遗忘，包含与已生成文本相矛盾。这是人设 (persona) 对话中常见的问题。赋予系统一个固定角色，在聊天过程中模型的人设信息会发生变化。
外部不一致 (external inconsistency)：对话系统为了生成角色一致且信息丰富的回复，会将包含显式角色信息的外部数据引入系统以辅助模型生成。