清华大学发布DeepSeek与AI幻觉研究报告:从风险到创造力
创作时间:
作者:
@小白创作中心
清华大学发布DeepSeek与AI幻觉研究报告:从风险到创造力
引用
CSDN
1.
https://m.blog.csdn.net/weixin_55366265/article/details/145767831
清华大学最新发布的DeepSeek与AI幻觉研究报告,深入探讨了AI幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等多个方面。该报告不仅揭示了AI幻觉的复杂性,还为如何有效应对AI幻觉提供了实用的建议。
AI幻觉的定义与类型
AI幻觉是指模型生成与事实不符、逻辑断裂或脱离上下文的内容。具体可以分为两类:
- 事实性幻觉:生成的内容与现实世界事实不一致,例如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误。
- 忠实性幻觉:生成的内容与用户指令或上下文不一致,表现为偏题或答非所问。
DeepSeek产生幻觉的原因
研究发现,DeepSeek产生幻觉的主要原因包括:
- 数据偏差:训练数据的错误或片面性会被放大,例如医学领域过时论文可能导致错误结论。
- 泛化困境:模型难以处理训练集外的复杂场景,如预测南极冰层融化对非洲农业的影响。
- 知识固化:过度依赖参数化记忆,缺乏动态更新能力,对2023年后的事件可能完全虚构。
- 意图误解:用户提问模糊时,模型易“自由发挥”,如对“介绍深度学习”的理解可能偏离实际需求。
AI幻觉的评测
研究采用了两种主要的测试方法:
- 随机生成通用提示语获取回答后人工判断标注并交叉验证
- 抽取事实性幻觉测试题比对答案并标注类型交叉验证
评测结果显示:
- 在事实性幻觉评测中,DeepSeekV3的幻觉率为29.67%,DeepSeekR1为22.33%。
- 不同模型在不同测试场景下的幻觉率存在差异。
- 推理能力与幻觉率之间存在双向作用机制,推理增强可能降低或增加幻觉率。
减缓AI幻觉的方法
普通用户应对方式
- 双AI验证 / 大模型协作
- 提示词工程(如知识边界限定、对抗性提示等)
- 针对不同高发场景(如知识边界模糊、未来事件预测等)给出防护建议
技术方案
- RAG框架
- 结合外部知识库
- 精细训练
- 开发评估工具
AI幻觉的潜在风险
尽管AI幻觉带来了一些创新机会,但也存在以下风险:
- 信息污染风险:加剧虚假信息传播
- 信任危机:使用户怀疑专业场景可靠性
- 控制欠缺:可能被恶意利用
- 安全漏洞:影响自动化系统等
AI幻觉的创造力价值
AI幻觉在多个领域展现出独特的创造力价值:
- 科学发现:启发新型蛋白质结构设计,推动科研范式转变为“AI幻觉 - 实验验证 - 理论重构”。
- 文艺与设计:突破思维定式,为创作提供灵感。
- 娱乐与游戏:创造新体验,生成游戏资产等。
- 技术创新:如提升自动驾驶系统识别精度等。
热门推荐
司马光和司马迁是什么关系(司马迁、司马懿、司马光,他们有血缘关系吗?)
宋朝帝王世系表(辈分、传承、头像)及其特征
胡杨林旅游攻略:一份完整的行程指南
车企吹响2025价格战:超30家限时直降、10余家推兜底补贴
黄金与利率走势的背离:利率上升导致黄金下跌
洛杉矶夜间必做的12件事
养心安神的中成药哪个好
“白肺”病越来越多,到底是怎么回事?哪些人群最危险?
蔬菜生态型无土栽培培养基的选择要点
长期吃安眠药会导致什么后果
如何调整空调出风口方向以实现最佳制冷效果?这些调整技巧对舒适度有何提升?
土地拍卖流程详解:一级与二级市场操作指南
远离安眠药副作用!教你如何改善睡眠问题
老中医治疗痉挛性斜颈,李艳波主任分享经验案例!
茶叶冲泡三大黄金法则:水温、时间与比例详解
《易经》第三十卦:离卦【悟道、卦象图解、阳宅、先天卦、后天卦、流年卦】
与精神病人的民事行为能力受限制吗
清单明权责 履职更规范(深度关注·健全为基层减负长效机制④)
美股不关心大选?历史数据这么说
尿不湿更换完全指南:从新生儿到幼儿,科学判断更换时机
杭州十大最高建筑排名,杭州世纪中心高310米排第一位
环吡酮胺软膏的功效与作用
DH法建立6自由度机械臂正运动学模型
跑完步后,等多久洗澡才不伤身?
每天一杯果汁真的健康?小心果汁的“甜蜜”陷阱
微信如何定时发送消息?
葫芦翡翠吊坠的丰富寓意:福禄双全的象征
煤气灶怎么调蓝火
背后感染真菌用什么药
【科普面对面】积极检测治愈、消除丙肝危害——你关心的困惑解答都在这里