问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

实测15个大模型：超半数答错"9.11和9.9谁大"

创作时间:

作者:

@小白创作中心

实测15个大模型：超半数答错"9.11和9.9谁大"

引用

澎湃

1.

https://www.thepaper.cn/newsDetail_forward_28110475

近日，一项针对15个大模型的测试引发了广泛关注。测试结果显示，这些大模型在回答"9.11和9.9哪个更大"这一简单数学问题时，竟然有超过半数给出了错误答案。

测试背景

Scale AI的高级提示工程师Riley Goodside使用"9.11 and 9.9——which is bigger?"这一提示词询问GPT-4o，却意外发现GPT-4o给出的答案是"前者更大"。这一发现迅速在AI社区中传播开来，引发了对大模型数学能力的广泛讨论。

评测结果

7月17日，研究人员对国内12款大模型以及国外的GPT-4o、Claude 3.5 Sonnet和谷歌的Gemini进行了集中评测。以下是各模型的具体表现：

GPT-4o

GPT-4o的表现令人惊讶。无论是用英文还是中文提问，它都坚持认为9.11大于9.9，并且在计算二者差值时也给出了错误答案。

Claude-3.5-Sonnet

Claude-3.5-Sonnet的表现同样令人失望。尽管它在比较小数部分时能够正确识别0.9大于0.11，但在最终结论上却始终错误。

Gemini

谷歌的Gemini在英文环境下给出了两次不同的答案。第一次正确识别了9.9更大，但在第二次测试中却错误地认为小数位数越多表示数字越大。在中文环境下，Gemini尝试通过实际生活场景来解释，但最终还是给出了错误的差值计算。

国内大模型表现

百度文心一言：正确回答了谁更大，并在后续计算中给出了正确答案。
阿里通义千问：全部答对。
字节豆包：虽然分析头头是道，但在最终结论上出错，但在计算差值时给出了正确答案。
腾讯元宝：触发搜索功能后给出了正确答案，但在计算差值时出现了小数点后16位的冗余。
智谱清言：错误地认为两位小数比一位小数大，并在计算差值时给出了负数。
科大讯飞星火：全部答对。
昆仑万维天工：全部答对。

专家解读

针对这一现象，通义实验室产品经理王晓明进行了深入分析。他指出，大模型基于Transformer架构，本质上是进行next token prediction，而非直接进行算术计算。因此，在处理简单数学题目时，依赖于预测模型的成功率。此外，分词器在解析数字时可能会将其误认为日期或版本号，从而导致错误。

结论

这项测试揭示了当前大模型在处理简单数学问题时的局限性。尽管许多模型在首次回答时出现错误，但通过第二轮提问或上下文引导，它们往往能够给出正确答案。这表明，提高大模型的数学能力需要从数据训练和算法优化两方面入手，特别是在数学计算和逻辑推理方面提供更高质量的数据支持。

热门推荐

哪吒和孙悟空谁战力更强？

哪吒和孙悟空谁战力更强？

好氧堆肥膜实现粪污、秸秆变有机肥？探访山东农业废弃物处理中心

好氧堆肥膜实现粪污、秸秆变有机肥？探访山东农业废弃物处理中心

多地取消公摊面积政策，对房价影响几何？

多地取消公摊面积政策，对房价影响几何？

雷电高发季防雷有秘笈！

雷电高发季防雷有秘笈！

什么叫农历？农历的由来，农历有什么用？

什么叫农历？农历的由来，农历有什么用？

凭一篇数学论文颠覆一个领域后，他拒绝了高额奖金

凭一篇数学论文颠覆一个领域后，他拒绝了高额奖金

肺癌伴呼吸困难的解决方法有哪些

肺癌伴呼吸困难的解决方法有哪些

影响个人贷款额度的主要因素：信用评分

影响个人贷款额度的主要因素：信用评分

为什么大家都喜欢看爽文

为什么大家都喜欢看爽文

贵州黄果树瀑布五日深度游全攻略：自然奇观与民族文化探索

贵州黄果树瀑布五日深度游全攻略：自然奇观与民族文化探索

计算机网络-MSTP工作原理

计算机网络-MSTP工作原理

商品房预售合同的法律效力及注意事项

商品房预售合同的法律效力及注意事项

美国是如何用一百多年成为世界强国的？

美国是如何用一百多年成为世界强国的？

低成本智能家居全攻略：从照明到安防的实用方案

低成本智能家居全攻略：从照明到安防的实用方案

为家乡种树的共和国将军，走了

为家乡种树的共和国将军，走了

辟谣｜豆腐会“掐住”你的肺？这是真的吗？

辟谣｜豆腐会“掐住”你的肺？这是真的吗？

新手攻略：主线攻略以及早中期发展路线

新手攻略：主线攻略以及早中期发展路线

贵州荔波小七孔：大自然的艺术品

贵州荔波小七孔：大自然的艺术品

重庆汽车产业上演高质量发展“三重奏”

重庆汽车产业上演高质量发展“三重奏”

向姓文化：一个源远流长的姓氏故事

向姓文化：一个源远流长的姓氏故事

《洛书》的数学研究

《洛书》的数学研究

北大经院学者郑伟：扩大个人养老金制度覆盖面

北大经院学者郑伟：扩大个人养老金制度覆盖面

冻干咖啡的正确冲泡方法：解锁香醇口感的指南

冻干咖啡的正确冲泡方法：解锁香醇口感的指南

8岁儿子书单: 多读历史，还能促进"大语文"学习！

8岁儿子书单: 多读历史，还能促进"大语文"学习！

多元的女性写作：“重新看见”她们

多元的女性写作：“重新看见”她们

养老金制度改革：挑战与出路

养老金制度改革：挑战与出路

为什么需要到人社局办理退休手续？

为什么需要到人社局办理退休手续？

巴中旅游景点推荐：漫步光雾山，感受巴山蜀水的独特魅力

巴中旅游景点推荐：漫步光雾山，感受巴山蜀水的独特魅力

4种对胃部有益的食物，药补不如食补，常吃温润养胃，增强免疫力

4种对胃部有益的食物，药补不如食补，常吃温润养胃，增强免疫力

Acta Paediatr：多学科合作的质量改进——促进优化新生儿低血糖管理

Acta Paediatr：多学科合作的质量改进——促进优化新生儿低血糖管理

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号