一文搞明白DeepSeek超高幻觉率及解决思路
一文搞明白DeepSeek超高幻觉率及解决思路
DeepSeek系列模型在很多方面的表现都很出色,但“幻觉”问题依然是它面临的一大挑战。本文将深入探讨DeepSeek的幻觉率问题,分析其产生原因,并提供实用的解决方案。
一、幻觉率
1.1、什么是幻觉率
幻觉率是指大语言模型在回答问题时出现答非所问、胡说八道的现象的比例。具体来说,当大语言模型在回答用户问题时,如果生成的内容与用户问题的实际需求不符,或者生成了错误的信息,这些情况都可以被视为幻觉。
幻觉率的高低直接反映了模型在生成内容时的准确性和可靠性。幻觉率是衡量大语言模型在回答问题时出现错误或不符合实际需求的情况的比例。具体表现为模型在生成内容时可能会编造不存在的信息,或者提供错误的知识点。这种幻觉现象在使用大语言模型时需要特别注意,因为它可能导致用户对信息的误解或错误决策。
1.2、DeepSeek的幻觉率
DeepSeek系列模型在很多方面的表现都很出色,但“幻觉”问题依然是它面临的一大挑战。在Vectara HHEM人工智能幻觉测试(行业权威测试,通过检测语言模型生成内容是否与原始证据一致,从而评估模型的幻觉率,帮助优化和选择模型)中,下面是DeepSeek家族几个模型的分值情况,DeepSeek-R1显示出14.3%的幻觉率。
模型 | 幻觉率 |
---|---|
deepseek/deepseek-r1 | 14.3 |
deepseek/deepseek-v3 | 3.9 |
deepseek/deepseek-chat | 2.4 |
评测站点:https://huggingface.co/spaces/vectara/leaderboard
下图是DeepSeek在不同基准测试中的情况,DeepSeek-R1的幻觉率不仅是 DeepSeek-V3的近4倍,也远超行业平均水平。这一结果挑战了“模型越聪明,幻觉越少”的传统认知。例如,在需要严格遵循事实的任务(如新闻摘要)中,R1常因过度推理而“添油加醋”,生成原文未提及的内容。这种“创造性编造”反映了模型的核心矛盾——研发团队通过强化“思维链(CoT)”(即让模型像人类一样逐步推理)显著提升了它的数学、代码和文学创作能力,但这一设计也让模型在面对简单任务时“想太多”。例如,用户要求翻译一句话,R1会先脑补上下文、分析潜在意图,再生成结果。这种复杂化处理在文学创作中是优势,但在事实性任务中却导致答案偏离真实,形成“能力越强,编造越多”的悖论。
DeepSeek-R1超高幻觉率解析:为何大模型总“胡说八道”? 百度安全验证
二、产生幻觉的原因
幻觉的本质是补白,是脑补。“白”就是某个具体事实,如果这个事实在训练数据中没有足够的信息冗余度,模型就记不住(零散事实等价于噪音)。记不住就用幻觉去补白,编造细节。幻觉绝不是没有束缚的任意编造,大模型是概率模型,束缚就是条件概率中的前文条件。幻觉选择的虚假事实需要与补白所要求的value(价值)类型匹配,即符合ontology/taxonomy(本体/分类法)的相应的上位节点概念。“张三”可以幻觉为“李四”,但不大可能幻觉成“石头”。文艺理论中有个说法,叫艺术真实。所谓艺术真实是说,文艺创作虽然可能背离了这个世界的事实,但却是可能的数字世界的合理想象。大模型的幻觉就属于此类情况。大模型是天生的艺术家,不是死记硬背的数据库。
R1的高幻觉率源于两大技术特性,R1会为用户的简单指令自动增加很长的思维链,等于是把一个简单明确的任务复杂化了。一个简单的指令,它也反复从不同角度理解和衍伸(CoT思维链好比“小九九”,就是一个实体遵从指令时的内心独白)。思维链改变了自回归概率模型生成answer前的条件部分,自然会影响最终输出。它与V3模型的区别如下,对于 V3 已经能很好完成的任务,比如摘要或翻译,任何思维链的长篇引导都可能带来偏离或发挥的倾向,这就为幻觉提供了温床。
- V3: query---->answer
- R1: query+CoT---->answer
2.1、过度延展的推理机制
研发团队为提升创造力,将数学解题中的“分步思考”模式迁移到语言任务中。例如,写诗时,R1会先模拟情感、构思意象,再组织语言,这种机制使其文学作品广受好评。但同样的逻辑被应用到摘要任务时,模型会主动“补充”它认为合理的细节(如添加未出现的数字或结论),导致事实性错误。
2.2、训练数据的奖励偏差
在训练阶段,团队对文科类任务(如小说创作)的评判标准更偏向“新颖性”而非“真实性”,导致模型将“合理编造”视为优质输出的关键。例如,当用户提问冷门知识时,若训练数据中相关事实不足,R1会基于同类信息(如“普通人平均身高”)生成看似合理实则虚构的答案。这种机制类似人类“根据经验猜测”,但模型缺乏对“不确定”的声明能力,最终表现为“自信地编造”。这两大特性叠加,使R1成为“天才创作者”与“离谱造谣者”的矛盾体——而这正是当前大模型技术难以平衡“创造力”与“真实性”的缩影。
三、大模型幻觉主要出现在哪些领域
如果把R1的能力分成“文科”和“理科”来看,它在数学、代码这些“理科”方面,逻辑性很强,幻觉相对少。但在语言创作领域,尤其是现在被测试的摘要任务上,幻觉问题就明显得多。这更多是R1语言创造力爆棚带来的副作用。比起o1,R1最令人惊艳的成就是成功将数学和代码的推理能力充分延伸到了语言创作领域,尤其在中文能力方面表现出色。网上流传着无数的R1精彩华章。舞文弄墨方面,它显然超过了99%的人类,文学系研究生、甚至国学教授也赞不绝口。但你看,让它做个摘要,本来是很简单的任务,但它非得给你“发挥”一下,结果就容易“编”出一些原文里没有的东西。前面说了,这是它“文科”太强了,有点“用力过猛”。
这里就不得不提一下推理能力增强和幻觉之间的微妙关系。它们并不是简单的正相关或负相关。GPT系列的推理模型o1的HHEM分数的平均值和中位数低于其通用模型GPT-4o(见下图)。可是当对比 R1 和它的基座模型 V3 时,又发现增加推理强化后幻觉确实显著增加了。
比起基座模型,o1 降低了幻觉,R1增加了幻觉,这可能是R1在文科思维链方面用力过猛。作为追随者,R1把数学和代码上的CoT赋能成功转移到语言文字创作上,但一不小心,副作用也显现了。R1特别喜欢“发散思维”,你给它一个简单的指令,它能想出一大堆东西来,思维链能绕地球三圈。这似乎说明 R1 在强化创造力的过程中,不可避免地增加了创造力的伴生品:幻觉。
语言能力其实可以细分为两类:一类需要高创造力,比如写诗歌、小说;另一类需要高度真实性,比如新闻报道、翻译或摘要。R1最受称赞的是前者,这也可能是研发团队的重点方向,但在后者中就出现了副作用。
中国古人说的“信达雅”,自古难全。为“雅”牺牲“信”的例子我们见得很多,文学创作中夸张的修辞手法就是重要手段和例证。为“信”牺牲“雅”也有先例,比如鲁迅先生推崇的“硬译”。有趣的是,人类在这方面其实一直是双标的,但我们心里有个可以随时切换的开关。看小说和电影时,我们把开关偏向创造性一侧,完全不会去纠结细节是否真实;但一旦切换到新闻频道,我们就对虚假内容零容忍。
四、如何降低幻觉率
该如何保持创造力的同时,有效降低大语言模型的"幻觉"现象?可以从两个维度进行切入,第一使用大模型时,加强大模型的使用范式;第二技术手段,提高大模型的训练精度。
4.1、使用范式
4.1.1、保持警惕
大模型说的话,特别是涉及到事实的,别全信,最容易产生幻觉的地方是人名、地名、时间、地点等实体或数据,一定要特别小心。
4.1.2、交叉验证
重要的细节,可上网查查原始资料或询问身边专家,看看说法是不是一致。
4.1.3、引导模型
你可以在提问的时候,加一些限定条件,比如“请务必忠于原文”、“请核对事实”等等,这样可以引导模型减少幻觉。
4.1.4、Search(联网搜索)
对于用户,很多问题,尤其是新闻时事方面,除了 DeepThink 按钮(按下就进入了R1慢思维mode),别忘了按下另一个按钮 Search。加上联网search后,会有效减少幻觉。search这类所谓RAG(retrieval augmented generation)等于是个外加数据库,增加的数据帮助弥补模型本身对于细节的无知。
4.1.5、享受创意
如果你需要的是灵感、创意,那大模型的幻觉,会给你带来惊喜。
大模型的幻觉,其实就是它“脑补”出来的,但它“脑补”的依据,是它学到的海量知识和规律。所以,它的幻觉,往往不是乱来的,有“内在的合理性”,这才丝滑无缝,假话说的跟真的似的,但同时也更具有迷惑性。初接触大模型的朋友,需要特别小心,不能轻信。
4.1.6、标准使用范式
可以参考如下链接内容,里面详细的说明了每个场景该如何与大模型对话方式。随着使用频次的增多,会逐渐熟悉大模型的使用套路,相信那时你能大大有效减小大模型出现幻觉的概率。
提示库链接:Prompt Library | DeepSeek API Docs
4.2、技术约束
技术上主流手段主要有:
- 训练阶段引入权威性强、信息密度高的事实型数据源(如专业百科全书、主流媒体报道等),通过增强关键实体(人物、机构、时空信息等)的重复性学习,提升模型对核心事实的精准记忆能力。
- 在应用层面构建智能任务分发机制:针对简单的事实查询需求,优先调用检索增强生成(RAG)技术或实时网络搜索获取准确结果;面对数值计算类问题,则自动激活代码解释器或专业计算模块进行处理。
这种分层处理架构既能保障基础信息的准确性,又可充分发挥模型的语言理解优势。这些方法都指向一条有效的路径,即通过构建以可信数据空间为基底的大模型生态系统。此生态系统可由以下工作流来表述:
4.2.1、动态验证替代静态记忆
当用户提问时,系统不再完全依赖模型训练时记忆的知识,而是通过加密通道实时连接相关数据源。例如回答“某药物副作用”,直接调取药监局最新脱敏数据,而非使用可能过时的训练信息。对于复杂问题(如供应链风险),系统自动拆分问题,联合多家企业的数据协同分析——汽车厂提供生产记录、物流公司共享运输数据、银行提交交易流水,所有原始数据保留在本地,仅通过安全计算交换加密结果,既解决问题又保护隐私。
4.2.2、权限管控与审计追踪
每次数据调用需通过严格权限审核:简单问题(如天气查询)秒级响应公开数据;敏感问题(如企业财务预测)需申请授权并人工审批。所有操作记录通过区块链存证,例如金融咨询场景中,模型调用银行数据的过程会被完整记录,确保符合GDPR和《数据安全法》,且可反向追溯至具体查询人员和时间节点。
4.2.3、多源交叉验证
生成答案前,系统自动从三个以上独立来源验证关键信息:
- 权威数据库(如政府公开文件)
- 企业核心数据(如药企临床试验报告)
- 实时信息流(如新闻API)
若发现冲突(如某政策解读差异),优先采用最高权威来源,并标注其他观点。例如回答“新能源汽车补贴”,同时显示工信部文件原文、地方细则差异及行业专家解读。
4.2.4、实时更新与增量学习
针对时效性强的领域(疫情、金融等),系统建立“监听-更新”通道,比如:当药监局发布新药副作用警告,1小时内同步到医疗知识库;监测到股票交易异常波动,立即更新上市公司财务风险评估模型。更新仅调整相关参数,无需重新训练整个模型,既高效又节能。
4.2.5、输出前的双重校验
所有回答需通过两道质检:
- 逻辑校验:用数学规则验证数值合理性(如“GDP增长6.5%”是否符合公式计算);
- 事实校验:通过知识图谱核对实体关系(如“张三任A公司CEO”是否与工商登记一致)。
可疑结论自动标注来源和置信度,例如“此结论经5省疾控数据验证,置信度92%”。只有当每个算法决策都能清晰追溯数据血缘,每次智能推理都可验证逻辑链条,才能真正实现从"概率生成"到"可信认知"的跨越。