清华大学发布DeepSeek与AI幻觉研究报告:从风险到创造力
创作时间:
作者:
@小白创作中心
清华大学发布DeepSeek与AI幻觉研究报告:从风险到创造力
引用
CSDN
1.
https://m.blog.csdn.net/weixin_55366265/article/details/145767831
清华大学最新发布的DeepSeek与AI幻觉研究报告,深入探讨了AI幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等多个方面。该报告不仅揭示了AI幻觉的复杂性,还为如何有效应对AI幻觉提供了实用的建议。
AI幻觉的定义与类型
AI幻觉是指模型生成与事实不符、逻辑断裂或脱离上下文的内容。具体可以分为两类:
- 事实性幻觉:生成的内容与现实世界事实不一致,例如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误。
- 忠实性幻觉:生成的内容与用户指令或上下文不一致,表现为偏题或答非所问。
DeepSeek产生幻觉的原因
研究发现,DeepSeek产生幻觉的主要原因包括:
- 数据偏差:训练数据的错误或片面性会被放大,例如医学领域过时论文可能导致错误结论。
- 泛化困境:模型难以处理训练集外的复杂场景,如预测南极冰层融化对非洲农业的影响。
- 知识固化:过度依赖参数化记忆,缺乏动态更新能力,对2023年后的事件可能完全虚构。
- 意图误解:用户提问模糊时,模型易“自由发挥”,如对“介绍深度学习”的理解可能偏离实际需求。
AI幻觉的评测
研究采用了两种主要的测试方法:
- 随机生成通用提示语获取回答后人工判断标注并交叉验证
- 抽取事实性幻觉测试题比对答案并标注类型交叉验证
评测结果显示:
- 在事实性幻觉评测中,DeepSeekV3的幻觉率为29.67%,DeepSeekR1为22.33%。
- 不同模型在不同测试场景下的幻觉率存在差异。
- 推理能力与幻觉率之间存在双向作用机制,推理增强可能降低或增加幻觉率。
减缓AI幻觉的方法
普通用户应对方式
- 双AI验证 / 大模型协作
- 提示词工程(如知识边界限定、对抗性提示等)
- 针对不同高发场景(如知识边界模糊、未来事件预测等)给出防护建议
技术方案
- RAG框架
- 结合外部知识库
- 精细训练
- 开发评估工具
AI幻觉的潜在风险
尽管AI幻觉带来了一些创新机会,但也存在以下风险:
- 信息污染风险:加剧虚假信息传播
- 信任危机:使用户怀疑专业场景可靠性
- 控制欠缺:可能被恶意利用
- 安全漏洞:影响自动化系统等
AI幻觉的创造力价值
AI幻觉在多个领域展现出独特的创造力价值:
- 科学发现:启发新型蛋白质结构设计,推动科研范式转变为“AI幻觉 - 实验验证 - 理论重构”。
- 文艺与设计:突破思维定式,为创作提供灵感。
- 娱乐与游戏:创造新体验,生成游戏资产等。
- 技术创新:如提升自动驾驶系统识别精度等。
热门推荐
OpenAI获66亿投资推进营利转型,面临内外部多重挑战
OpenAI营利化转型引争议,专家忧影响AI安全
《水浒传》曾和“麻将”联名
‘小众运动’新潮涌动:麻将竞技魅力与文化传承探析
围棋:中华民族的智慧结晶
小年迎新春:祭灶王、扫尘土,南北方习俗有差异
一文读懂中国传统节日:习俗、故事与文化内涵
康熙十七子化身完美君子:《甄嬛传》果郡王走红解读
历史上的果郡王允礼:不只是甄嬛传里的“白月光”
果郡王允礼:康熙之子、两朝重臣,42岁英年早逝获乾隆特恩
揭秘:离心风机风量背后的科学原理
【风电基础】风力发电机组叶尖速比:风电的关键参数
独自旅行必读:让心灵保持愉悦的五个小贴士
掌握这12招,拍出专业级风光大片
黄益平谈国家资本:如何在创新中发挥作用?
洗浴中心,硬控年轻人
现代生活中的SPA:缓解压力与身心健康的完美选择
三种自制奶粉面膜配方,让肌肤白皙透亮
中医药与现代医学:融合创新,共筑健康新未来
无创血糖监测技术的应用
头痛、头晕不在意,可能会埋下重大隐患——慢性硬膜下血肿
头晕眩晕专家张小中:头晕眩晕去医院检查不出问题是怎么回事?
实收资本如何撑起企业财务的半边天?
金山湖画舫夜游:白娘子传说中的浪漫之旅
南京推出多项举措,小众景点成暑期旅游新选择
南京北站建设提速:2027年投用,将打造14.4平方公里枢纽经济区
南京地铁5号线南段今开通,智能票亭等设施引市民打卡
年终总结这样写:产品经理必备的三大模块与实用技巧
花艺必修课:螺旋法打造稳定又美观的花束
瓶花插作的艺术规律:历代绘画作品中的瓶花之美