DeepSeek-R1模型幻觉问题严重,推理能力与准确性面临挑战
创作时间:
作者:
@小白创作中心
DeepSeek-R1模型幻觉问题严重,推理能力与准确性面临挑战
引用
AIbase
1.
https://www.aibase.com/zh/news/15102
近日,Vectara的机器学习团队对DeepSeek系列的两款模型进行了深入的幻觉测试,结果显示,DeepSeek-R1的幻觉率高达14.3%,显著高于其前身DeepSeek-V3的3.9%。这一发现引发了对推理增强大语言模型(LLM)产生幻觉率的广泛讨论。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究团队指出,推理增强模型可能会比普通的大语言模型更容易产生幻觉。这一现象在DeepSeek系列与其他推理增强模型的比较中表现得尤为明显。以GPT系列为例,推理增强的GPT-o1与普通版GPT-4o之间的幻觉率差异,也验证了这一推测。
为了评估这两款模型的表现,研究人员使用了Vectara的HHEM模型和Google的FACTS方法进行判断。HHEM作为专门的幻觉检测工具,在捕捉DeepSeek-R1的幻觉率增加时表现出较高的灵敏度,而FACTS模型在这方面的表现则相对逊色。这提示我们,可能HHEM比LLM作为标准更加有效。
值得注意的是,DeepSeek-R1尽管在推理能力上表现出色,但却伴随着更高的幻觉率。这可能与推理增强模型所需处理的复杂逻辑有关。随着模型推理的复杂性增加,生成内容的准确性反而可能受到影响。研究团队还强调,若DeepSeek在训练阶段能够更关注减少幻觉问题,或许能实现推理能力与准确性之间的良好平衡。
虽然推理增强模型通常表现出更高的幻觉率,但这并不意味着它们在其他方面不具优势。对于DeepSeek系列来说,仍需在后续的研究和优化中,解决幻觉问题以提升整体模型性能。
本文原文来自aibase.com
热门推荐
德国发明家推出Varibike,全球首款手脚并用自行车
空气炸锅烤整鸡:腌制烤制三步走,新手也能成功
MSH6阳性组织助力癌症精准诊疗
黑神话:悟空》:一款游戏如何引爆全球市场
从细胞分裂跑法到间歇训练:全面提升肺活量的科学指南
996工作制下的职场冲突:如何通过有效沟通寻找出路?
足底筋膜炎:7种保守治疗方案助你摆脱晨起疼痛困扰
香港文学馆推出新媒体艺术项目,科幻小说变身交互剧场
NEJM研究:间歇性禁食可改善代谢,预防疾病
巨蟹座男生专一到什么程度?
“藏”在竹林中的中药
科学喂奶姿势,告别宝宝鼻出奶液烦恼
“四大”还是“三大”?中国石窟艺术的五处瑰宝
直径20公里却与太阳等重,中子星揭秘宇宙极端物质状态
嘴唇干裂的真相:从环境到营养,5大原因与对策
食品添加剂柠檬酸铁铵:安全补铁有讲究
从芈八子到赵姬:历史上三位太后的私情与结局
清明时节,如何安放哀伤?
东北柳蒿芽:春日里的时令美味与营养之选
122报警电话:交通事故处理的专业指南
唐宋文化名人的北京之行
尊称对方丈夫礼仪指南:社交场合展现风度,留下良好印象
四川白芨种植:土壤改良是关键,专家详解四大要点
典韦教你玩转万爆鲁班出装
欧米伽3的健康益处与安全摄入指南
<人格研究杂志>最新研究:当人生主角更易获得幸福感
王者荣耀4月调整后,司空震以53.9%胜率成新晋法王
电脑显示模糊?这些方法让你重获清晰视觉
接种疫苗,远离肝炎困扰
洛阳豆腐汤:传统豫菜的制作技艺与文化传承