问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

清华大学:DeepSeek与AI幻觉研究报告 2025

创作时间:
作者:
@小白创作中心

清华大学:DeepSeek与AI幻觉研究报告 2025

引用
CSDN
1.
https://blog.csdn.net/weixin_55366265/article/details/145767831

AI幻觉是当前人工智能领域面临的重要挑战之一。本文详细探讨了AI幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等多个方面。通过深入分析,为AI技术的研究和应用提供了有价值的参考。

AI幻觉的定义与类型

AI幻觉是指模型生成与事实不符、逻辑断裂或脱离上下文的内容。具体可以分为两类:

  • 事实性幻觉:生成的内容与现实世界事实不一致。例如,在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误。

  • 忠实性幻觉:生成的内容与用户指令或上下文不一致。例如,在回答糖尿病患者能否用蜂蜜代替糖的问题时出现偏题的情况。

DeepSeek产生幻觉的原因

DeepSeek产生幻觉的原因主要包括以下几个方面:

  • 数据偏差:训练数据的错误或片面性会被放大。例如,在医学领域,过时的论文可能导致错误结论。

  • 泛化困境:模型难以处理训练集外的复杂场景。例如,预测南极冰层融化对非洲农业的影响。

  • 知识固化:模型过度依赖参数化记忆,缺乏动态更新能力。对于2023年后的事件,模型可能完全虚构。

  • 意图误解:当用户提问模糊时,模型容易“自由发挥”。例如,对“介绍深度学习”的理解可能偏离实际需求。

AI幻觉的评测

AI幻觉的评测主要包括以下两种方法:

  • 测试方法:通过随机生成通用提示语获取回答后人工判断标注并交叉验证,以及抽取事实性幻觉测试题比对答案并标注类型交叉验证。

  • 评测结果:在事实性幻觉评测中,DeepSeekV3的幻觉率为29.67%,DeepSeekR1的幻觉率为22.33%。不同模型在不同测试场景下的幻觉率存在差异,且推理能力与幻觉率之间存在双向作用机制,推理增强可能降低或增加幻觉率。

减缓AI幻觉的方法

减缓AI幻觉的方法主要包括以下两类:

  • 普通用户应对方式:包括双AI验证/大模型协作、提示词工程(如知识边界限定、对抗性提示等)。针对不同高发场景(如知识边界模糊、未来事件预测等)给出防护建议。

  • 技术方案:包括RAG框架、结合外部知识库、精细训练和开发评估工具等。

AI幻觉的潜在风险

AI幻觉可能带来的潜在风险主要包括:

  • 信息污染风险:加剧虚假信息传播。

  • 信任危机:使用户怀疑专业场景的可靠性。

  • 控制欠缺:可能被恶意利用。

  • 安全漏洞:影响自动化系统等。

AI幻觉的创造力价值

AI幻觉虽然存在诸多风险,但也具有一定的创造力价值:

  • 科学发现:如启发新型蛋白质结构设计,推动科研范式转变为“AI幻觉-实验验证-理论重构”。

  • 文艺与设计:突破思维定式,为创作提供灵感。

  • 娱乐与游戏:创造新体验,生成游戏资产等。

  • 技术创新:如提升自动驾驶系统识别精度等。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号