问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI数学难题曝光多家大模型误判911与99大小之争

创作时间:
作者:
@小白创作中心

AI数学难题曝光多家大模型误判911与99大小之争

引用
搜狐
1.
https://m.sohu.com/a/794371820_120740024/?pvid=000115_3w_a

近期,AI大模型在处理基本数学问题时的表现引发业界广泛关注。多家知名大模型开发公司,包括阿里巴巴、腾讯、网易有道、学而思等,对此现象进行了深入剖析。

关于近期AI大模型在处理基本数学问题上的表现,尤其是诸如“9.11和9.9哪个大”这类简单对比题目的错误率,引发了业界广泛关注与讨论。多家知名大模型开发公司,包括阿里巴巴、腾讯、网易有道、学而思等,对此现象进行了深入剖析。他们普遍指出,大模型在面对此类问题时的准确率波动,源于其基于概率预测的运行机制,以及在数学规则理解和应用上的局限性。

阿里通义实验室产品经理王晓明表示,大模型在解答这类问题时,并非像人脑那样直接进行数值比较,而是基于语言模式进行预测。这意味着,即便同一问题,大模型也可能给出不同答案,其正确与否取决于模型在训练过程中接触到的相关情境。腾讯混元团队补充说明,大模型作为语言模型,其核心在于预测文本序列中的下一个词,这种机制使其在处理数学运算或数字比较时存在天然障碍。

为改善大模型的数学处理能力,行业内部正积极寻求解决方案。一方面,提升模型训练数据中数学相关素材的比例,以增强其在数学领域的理解和推理能力;另一方面,通过集成外部工具,如计算器和代码执行器,来弥补大模型在精确计算上的短板。学而思的MathGPT便是一个成功案例,该模型通过大量数学训练数据和模拟学习过程,显著提升了在数学题解答上的准确性和逻辑连贯性。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号