大模型中的幻觉现象:定义、分类、成因与评估方法
创作时间:
作者:
@小白创作中心
大模型中的幻觉现象:定义、分类、成因与评估方法
引用
CSDN
1.
https://blog.csdn.net/qq_40206371/article/details/136590028
在大模型应用日益广泛的今天,"幻觉"(hallucination)现象成为了AI领域一个重要的研究课题。这种现象指的是模型生成的文本虽然语法正确、自然流畅,但却包含虚假信息或事实错误。本文将从幻觉的定义、分类、成因、不一致性以及评估方法等多个维度,深入探讨这一现象。
1 介绍
"幻觉" (Hallucination)是指模型生成自然流畅,语法正确但实际上毫无意义且包含虚假信息即事实错误的文本,以假乱真,就像人产生的幻觉一样。
举个例子就是,即使现在的chatgpt-4,你问他一些有确切答案的问题,他也会“说胡话”
看起来语法语义上没什么问题,但那个赛季上港是21胜5平4负积68分(数据来自懂球帝)
2 幻觉分类
- 内部幻觉 (intrinsic hallucination)
- 生成的文本与给定源文本出现不忠实 (unfaithfulness) 或不一致 (inconsistency) 的现象
- 常见于文本摘要任务中,生成的摘要与原文不一致
- 外部幻觉 (extrinsic hallucination)
- 生成内容在源文本中并未提及,虽然不能找出相关证据,但也不能断言这就是错误的
3 幻觉的成因
- 生成的文本 𝑌 由源文本 𝑋 和语言模型里的先验知识 𝐾 共同决定
- 由于一般认为给定的源文本都是事实正确的 ground-truth,所以出现的幻觉一般都会归结于语言模型本身包含了错误事实。
- 语言模型中的先验知识都来自于训练语料,用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息
- 这些错误知识都会被学习,存储在模型参数中
- 模型生成文本时会优先考虑自身参数化的知识,所以更倾向生成幻觉内容
- 另一方面,模型训练和推理时的差异,也是导致推理时更容易生成幻觉的原因之一
- 训练通常是teacher forcing,以 ground-truth 作为后续预测 token 的前缀输入
- 机器学习笔记:RNN值Teacher Forcing_teach learning rnn-CSDN博客
- 推理则根据历史序列生成来预测下一个 token
4 不一致性(inconsistency)的分类
“不一致” (inconsistency)——用来描述这些文本生成的幻觉问题的另一个更常见的术语
- 模型自身不一致 (self-inconsistency)
- 模型生成的回复与对话历史或与自身已生成回复相矛盾(内部幻觉)
- 与对话历史的不一致性问题一般来自于历史信息的遗忘,包含与已生成文本相矛盾
- 这是人设 (persona) 对话中常见的问题
- 赋予系统一个固定角色,在聊天过程中模型的人设信息会发生变化
- 外部不一致 (external inconsistency)
- 对话系统为了生成角色一致且信息丰富的回复,会将包含显式角色信息的外部数据引入系统以辅助模型生成
5 幻觉的评估
5.1 统计的方法
- 直接计算生成文本和参考目标文本之间的词汇匹配度
- ROUGE
- BLEU
- 精确率&召回率。。。
5.1.1 缺点
- 大模型的回复往往不唯一,输入与输出是一对多的映射
- 在实际应用中,覆盖所有可能的输出几乎不可能
5.2 基于模型方法的评估
- 主要基于自然语言推理 (Natural Language Inference, NLI)
- 即判断一项假设(生成文本)是否蕴含于前提(参考文本)
- 基于 NLI 的指标将幻觉分数定义为源文本与生成文本之间的蕴含概率
- 需要先收集相关蕴含关系的数据集来训练这样一个判别模型
5.2.1 缺点
基于模型的评估方法整体上比词级别的统计方法要适用得多,然而文本蕴含模型只能返回一个分数,无法定位具体生成文本的哪些部分是错误的
热门推荐
揭秘李白成名之路:才华横溢与个性魅力并驱
国产航发CJ1000告别钛合金,迎来复材叶片!能否让C919一飞冲天?
个人所得税退税申请审核未通过?这样做才正确!
CNC编程基础与常用代码解读
CNC数控加工工艺详解
睡觉躺床上总胡思乱想怎么办?试试这些小妙招缓解!
吃什么养肺?补肺的十种食物大盘点
员工"为照顾病人请假",公司应当批准吗?
酱酒工艺的传承与革新
退税流程怎么操作:法律实务中的退税申请、审核及争议解决
如何计算油号?油号的计算方法和注意事项是什么?
如何通过短剧的粉丝互动提升知名度
韩国军工产业崛起:从全球第31位到第九大武器出口国
A股调整!机构热议大小盘风格切换
规避港股通20%的红利税的方法
单端输入与差分输入:原理、对比及应用
警惕!“抢红包”诈骗案:要求被害人发送“口令红包”通过境外聊天软件分发给跑分团伙
左侧肋骨下隐隐疼痛什么原因挂什么科
李嘉诚旗下长江基建在伦敦交易所第二上市
昆仑制造全力打造“产品巨人”
稻米油缘何成了家长的新宠?
探究古代武将武器的真实重量及其影响
趋势拐点的辅助手段——123法则与2B法则
经期舒适入睡秘籍,你想知道的全在这
学会自我保护,远离精神控制——PUA
向量数据库架构设计指南:支持大规模数据处理的六大维度
男人八字桃花:男命八字桃花缠身,财不旺偏财难觅
后移动互联网时代,人工智能如何改变商业逻辑?
开放式基金和场内基金:投资理财的两种常见选择
健康睡眠的十大建议