问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型能答对几道高考数学题?国产九章大模型PK国际GPT-4o

创作时间:
作者:
@小白创作中心

大模型能答对几道高考数学题?国产九章大模型PK国际GPT-4o

引用
1
来源
1.
http://www.duozhi.com/industry/insight/2024061216301.shtml

又是一年高考季,当AI遇上高考数学题,会碰撞出怎样的火花?近日,国产九章大模型(MathGPT)与OpenAI最新推出的GPT-4o在2024年全国甲卷数学高考真题上展开了一场别开生面的较量。让我们一起来看看这场人机大战的结果如何。

随着人工智能技术的飞速发展,AI在各个领域的应用越来越广泛,“大模型做高考题”也成了一大看点。大模型因为是自然语言模型,“重文轻理”是普遍情况,但也有大模型主攻数学能力。今天的测试,让专攻数学的国产九章大模型(MathGPT)和OpenAI最新的大模型GPT-4o一起做今年的数学题,以2024全国甲卷数学高考真题为例,看看结果会怎样?

九章大模型略胜一筹,仍有较大提升空间

先来看结论:

  • 九章大模型(MathGPT)

  • 选择题12题,做对7题。

  • 填空题4题,做对2题。

  • 九章大模型总分= 7 * 5分 + 2 * 5分 = 45分 (满分90分)

  • GPT-4o

  • 选择题12题,正确7题。

  • 填空题4题,正确1题。

  • GPT-4o总分= 7 * 5分 + 1 * 5分 = 40分 (满分90分)

GPT-4o是OpenAI在今年5月14日推出的最新大模型,GPT-4o在处理速度上提升了高达200%,GPT-4o所有功能包括视觉、联网、记忆、执行代码以及GPT Store等,可以实时对音频、视觉和文本进行推理。

学而思九章大模型(MathGPT)是学而思自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。2023年 11 月,九章大模型成为首批通过备案的教育大模型。

本次测试题目仅针对《2024年高考全国甲卷数学真题》。由于数学解答题的评分考核步骤过程,答题准确与否不易评判,所以只针对有明确答案的选择题和填空题来测试。

在测试中我们发现,文本输入格式的不同,会对测试结果造成比较明显的干扰。于是此次测试采用了上传图片文本识别的方式,让大模型识别题目并做题,更能保证结果的公平客观。同时,这种识图的方式也更类似“人类视觉读题”的真实状态,是对大模型能力的全面考验。

从结论来看,九章大模型作为以数学领域的解题和讲题算法为核心的大模型,在高考数学题目上更胜一筹,比GPT-4o得分更高。同时“点睛”分析也是九章大模型的特色,在解题的同时还拆解了题目的考点,更适合给学习者作为参考。

但从绝对值的分数来看,两个大模型的整体答题分数都不算太高。大模型做数学题仍是一个难度较大的挑战,短期的模型表现还达不到完美,但在逐步攻克数学问题的路上,AI的每一步尝试进展,都是对未来教育的想象空间的开拓,值得更多耐心与期待。

选择题:九章大模型、GPT-4o互有胜负

2024年高考全国甲卷数学题共12道选择题,九章大模型和GPT-4o都是有7道正确,但做对的题目不完全相同,互有胜负。

选择题

具体来看几道题:

  • 第2题,九章大模型做对,GPT-4o做错:

原题:

九章大模型解答:

GPT-4o解答:

  • 第9题,九章大模型做对,GPT-4o认为没有正确答案:

原题:

九章大模型解答:

GPT-4o解答

  • 第10题,九章大模型做错,GPT-4o做对:

原题:

九章大模型解答:

GPT-4o解答,答案选择正确,但其中解题对命题①的分析存在错误:

填空题:GPT-4o做对一道,九章做对两道

具体来看两道题:

  • 第14题,九章大模型和GPT-4o都做对:

原题:

九章大模型解答:

GPT-4o解答:

  • 第16题,九章大模型做对,GPT-4o做错

原题:

九章大模型解答:

GPT-4o解答:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号