实测15个大模型:超半数答错"9.11和9.9谁大"
实测15个大模型:超半数答错"9.11和9.9谁大"
近日,一项针对15个大模型的测试引发了广泛关注。测试结果显示,这些大模型在回答"9.11和9.9哪个更大"这一简单数学问题时,竟然有超过半数给出了错误答案。
测试背景
Scale AI的高级提示工程师Riley Goodside使用"9.11 and 9.9——which is bigger?"这一提示词询问GPT-4o,却意外发现GPT-4o给出的答案是"前者更大"。这一发现迅速在AI社区中传播开来,引发了对大模型数学能力的广泛讨论。
评测结果
7月17日,研究人员对国内12款大模型以及国外的GPT-4o、Claude 3.5 Sonnet和谷歌的Gemini进行了集中评测。以下是各模型的具体表现:
GPT-4o
GPT-4o的表现令人惊讶。无论是用英文还是中文提问,它都坚持认为9.11大于9.9,并且在计算二者差值时也给出了错误答案。
Claude-3.5-Sonnet
Claude-3.5-Sonnet的表现同样令人失望。尽管它在比较小数部分时能够正确识别0.9大于0.11,但在最终结论上却始终错误。
Gemini
谷歌的Gemini在英文环境下给出了两次不同的答案。第一次正确识别了9.9更大,但在第二次测试中却错误地认为小数位数越多表示数字越大。在中文环境下,Gemini尝试通过实际生活场景来解释,但最终还是给出了错误的差值计算。
国内大模型表现
- 百度文心一言:正确回答了谁更大,并在后续计算中给出了正确答案。
- 阿里通义千问:全部答对。
- 字节豆包:虽然分析头头是道,但在最终结论上出错,但在计算差值时给出了正确答案。
- 腾讯元宝:触发搜索功能后给出了正确答案,但在计算差值时出现了小数点后16位的冗余。
- 智谱清言:错误地认为两位小数比一位小数大,并在计算差值时给出了负数。
- 科大讯飞星火:全部答对。
- 昆仑万维天工:全部答对。
专家解读
针对这一现象,通义实验室产品经理王晓明进行了深入分析。他指出,大模型基于Transformer架构,本质上是进行next token prediction,而非直接进行算术计算。因此,在处理简单数学题目时,依赖于预测模型的成功率。此外,分词器在解析数字时可能会将其误认为日期或版本号,从而导致错误。
结论
这项测试揭示了当前大模型在处理简单数学问题时的局限性。尽管许多模型在首次回答时出现错误,但通过第二轮提问或上下文引导,它们往往能够给出正确答案。这表明,提高大模型的数学能力需要从数据训练和算法优化两方面入手,特别是在数学计算和逻辑推理方面提供更高质量的数据支持。