问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

当大模型开始“考上”一本

创作时间:
作者:
@小白创作中心

当大模型开始“考上”一本

引用
1
来源
1.
https://www.chinaventure.com.cn/news/78-20240625-381674.html

2024年高考成绩陆续揭晓,人们对于大模型的智力水平产生了浓厚的兴趣。为了回答这个备受关注的问题,我们特别邀请了九个大模型参加这场特殊的考试,其中包括GPT-4o、百度文心4.0、阿里通义千问2.5等国内外知名大模型。他们将使用2024年高考难度最高的新课标Ⅰ卷进行测试,让我们一起来看看这些"考生"的表现如何。

考试方法与评判标准

本次测试采用2024年高考难度最高的新课标Ⅰ卷,涵盖语文、数学、英语、文综和理综等科目。测试团队对所有科目进行两轮测试,取平均分。在判分方式上,选择题和填空题只看最终结果,不考虑模型解题过程是否准确;多选题如提交错误答案为零分,如提交部分正确答案,则按相应比例给分;解答题由测试团队参考标准答案,按照解题步骤算分。语文作文则由北京市级骨干教师、怀柔区语文学科带头人夏老师打分,她具有多次参加全国高考语文阅卷的经历。

考试结果概览

整体来看,大模型在文科的表现更加优异,最高分可以达到562分(GPT-4o)。相比之下,理科成绩不尽如人意,最高只有478.5分,而且基本所有大模型的理科成绩都要比文科总成绩低70-80分。

根据河南高考分数线,最高分的GPT-4o可以在国内最"卷"的河南超过一本线41分,豆包542.5分的文科成绩也稳稳超过一本线,紧随其后的是537.5分的文心4.0,以及正好卡到文科一本录取分数线521分的百小应。

对于河南高考理科511分的一本线,表现最好的文心4.0仍然有超过30分的差距,但从测试结果来看,大模型目前的智力水平找个二本的理科专业已经绰绰有余。

各科目表现分析

语文:很好的写手,但缺乏情感

在语文考试中,大模型的客观题得分不错,包括GPT-4o在内的大多数模型都能拿到满分。但在作文部分,大模型的表现则暴露出一些瓶颈。虽然18篇作文中有11篇超过了48分,平均分在46.8分左右,但阅卷老师指出,大模型的写作普遍存在"理性有余,感性不足"的问题,缺乏感情色彩和感染力。

例如,文心4.0在作文中能够清晰地展示论述框架和逻辑,但结尾表达升华不够,套路化明显。而腾讯元宝则在语言表达上展现出较高的水平,但整体上仍难以产生优秀作文(一类文)。

英语:大模型的舒适区

在英语测试中,大模型的表现堪称压倒性。9个大模型的平均分达到132分,GPT-4o和百小应的平均分更是达到139分。在客观题部分,大多数模型都能拿到满分或接近满分的分数。但在应用文写作和读后续写部分,大模型的表现则有所下降,主要问题包括指令识别错误、内容空泛、句式单一等。

数学:大模型的短板

大模型在数学上的表现令人意外地糟糕。即使是表现最好的GPT-4o也只得了70分(满分150分),而9款产品的数学平均分只有47分。大多数模型只能解决推理步骤相对简单的题目,对于复杂的推导和证明则难以得分。此外,部分模型还存在把简单问题复杂化的情况。

文综与理综:文科优势明显

在文综和理综的对比中,大模型在文科的表现明显优于理科。在历史和政治两科,测试选手中有三至四家能达到80%以上的得分率。特别是GPT-4o在政治考试中得到了夸张的91.5分。相比之下,地理考试是文综三科中大模型表现最差的,最高分仅为GPT-4o的68分。

在理综方面,大模型在生物学科的表现相对较好,但整体成绩仍然不佳。满分90分的生物试卷,表现最优秀的文心4.0和通义千问分别得到了65分和62分。而在物理和化学学科,各模型目前仍无法及格,平均分只有39分和34分。

结语

从这次测试结果来看,大模型在文科方面已经具备了相当的竞争力,接近半数的模型已经有资格拿到一张一本文科的录取通知书。但与此同时,测试结果也表明了,即使性能最顶尖的大模型产品们,目前也仍然在高考的数理化考题里疲于应付。

从几年前AI开始尝试做小学题目,到2022年第一次有人将AI带进高考的英语考场,再到如今它成为一个有不错竞争力的高考"偏科生"。一次次与人类智力的比较,为我们朴素地"翻译"出了目前最顶尖人工智能的智力水平究竟如何。而像所有人类学子一样,这场高考的结束,最终会变成每个大模型新的起点。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号