资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

清华大学发布DeepSeek与AI幻觉研究报告：从风险到创造力

创作时间:

作者:

@小白创作中心

清华大学发布DeepSeek与AI幻觉研究报告：从风险到创造力

引用

CSDN

https://m.blog.csdn.net/weixin_55366265/article/details/145767831

清华大学最新发布的DeepSeek与AI幻觉研究报告，深入探讨了AI幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等多个方面。该报告不仅揭示了AI幻觉的复杂性，还为如何有效应对AI幻觉提供了实用的建议。

AI幻觉的定义与类型

AI幻觉是指模型生成与事实不符、逻辑断裂或脱离上下文的内容。具体可以分为两类：

事实性幻觉：生成的内容与现实世界事实不一致，例如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误。
忠实性幻觉：生成的内容与用户指令或上下文不一致，表现为偏题或答非所问。

DeepSeek产生幻觉的原因

研究发现，DeepSeek产生幻觉的主要原因包括：

数据偏差：训练数据的错误或片面性会被放大，例如医学领域过时论文可能导致错误结论。
泛化困境：模型难以处理训练集外的复杂场景，如预测南极冰层融化对非洲农业的影响。
知识固化：过度依赖参数化记忆，缺乏动态更新能力，对2023年后的事件可能完全虚构。
意图误解：用户提问模糊时，模型易“自由发挥”，如对“介绍深度学习”的理解可能偏离实际需求。

AI幻觉的评测

研究采用了两种主要的测试方法：

随机生成通用提示语获取回答后人工判断标注并交叉验证
抽取事实性幻觉测试题比对答案并标注类型交叉验证

评测结果显示：

在事实性幻觉评测中，DeepSeekV3的幻觉率为29.67%，DeepSeekR1为22.33%。
不同模型在不同测试场景下的幻觉率存在差异。
推理能力与幻觉率之间存在双向作用机制，推理增强可能降低或增加幻觉率。

减缓AI幻觉的方法

普通用户应对方式

双AI验证 / 大模型协作
提示词工程（如知识边界限定、对抗性提示等）
针对不同高发场景（如知识边界模糊、未来事件预测等）给出防护建议

技术方案

RAG框架
结合外部知识库
精细训练
开发评估工具

AI幻觉的潜在风险

尽管AI幻觉带来了一些创新机会，但也存在以下风险：

信息污染风险：加剧虚假信息传播
信任危机：使用户怀疑专业场景可靠性
控制欠缺：可能被恶意利用
安全漏洞：影响自动化系统等

AI幻觉的创造力价值

AI幻觉在多个领域展现出独特的创造力价值：

科学发现：启发新型蛋白质结构设计，推动科研范式转变为“AI幻觉 - 实验验证 - 理论重构”。
文艺与设计：突破思维定式，为创作提供灵感。
娱乐与游戏：创造新体验，生成游戏资产等。
技术创新：如提升自动驾驶系统识别精度等。

热门推荐

司马光和司马迁是什么关系（司马迁、司马懿、司马光，他们有血缘关系吗？）

宋朝帝王世系表（辈分、传承、头像）及其特征

胡杨林旅游攻略：一份完整的行程指南

车企吹响2025价格战：超30家限时直降、10余家推兜底补贴

黄金与利率走势的背离：利率上升导致黄金下跌

洛杉矶夜间必做的12件事

养心安神的中成药哪个好

“白肺”病越来越多，到底是怎么回事？哪些人群最危险？

蔬菜生态型无土栽培培养基的选择要点

长期吃安眠药会导致什么后果

如何调整空调出风口方向以实现最佳制冷效果？这些调整技巧对舒适度有何提升？

土地拍卖流程详解：一级与二级市场操作指南

远离安眠药副作用！教你如何改善睡眠问题

老中医治疗痉挛性斜颈，李艳波主任分享经验案例！

茶叶冲泡三大黄金法则：水温、时间与比例详解

《易经》第三十卦：离卦【悟道、卦象图解、阳宅、先天卦、后天卦、流年卦】

与精神病人的民事行为能力受限制吗

清单明权责履职更规范（深度关注·健全为基层减负长效机制④）

美股不关心大选？历史数据这么说

尿不湿更换完全指南：从新生儿到幼儿，科学判断更换时机

杭州十大最高建筑排名，杭州世纪中心高310米排第一位

环吡酮胺软膏的功效与作用

DH法建立6自由度机械臂正运动学模型

跑完步后，等多久洗澡才不伤身？

每天一杯果汁真的健康？小心果汁的“甜蜜”陷阱

【科普面对面】积极检测治愈、消除丙肝危害——你关心的困惑解答都在这里