当大模型开始“考上”一本

创作时间:

作者:

@小白创作中心

当大模型开始“考上”一本

引用

来源

https://www.chinaventure.com.cn/news/78-20240625-381674.html

2024年高考成绩陆续揭晓，人们对于AI大模型的智力水平产生了浓厚的兴趣。为了探究AI大模型在高考中的表现，研究人员邀请了九个大模型参加这场考试，包括GPT-4o、百度文心4.0、阿里通义千问2.5等国内外知名大模型。他们使用2024年高考难度最高的新课标Ⅰ卷，并采用与人类考生相同的评判标准。最终结果显示，部分大模型已经具备了考取一本院校的实力，但数理学科的表现仍然不尽如人意。

考试设置与方法

本次测试使用2024年高考难度最高的新课标Ⅰ卷，涵盖了语文、数学、英语、文综（历史、地理、政治）和理综（物理、化学、生物）等多个科目。测试团队对所有科目进行两轮测试，取平均分。在测试过程中，采用Markdown/LaTeX格式输入公式，对于图像问题，根据模型的图片识别能力选择是否输入图片。判分方式与人类考生统一标准，选择题和填空题只看最终结果，解答题则参考标准答案按步骤算分。语文作文由专业教师打分，打分过程对AI产品做匿名处理。

整体成绩分析

整体来看，大模型在文科的表现更加优异，最高分可以达到562分（GPT-4o），相比之下理科成绩不尽如人意，最高只有478.5分，而且基本所有大模型的理科成绩都要比文科总成绩低70-80分。根据河南高考分数线，最高分的GPT-4o可以在国内最“卷”的河南超过一本线41分，豆包542.5分的文科成绩也稳稳超过一本线，紧随其后的是537.5分的文心4.0，以及正好卡到文科一本录取分数线521分的百小应。对于河南高考理科511分的一本线，表现最好的文心4.0仍然有超过30分的差距，但从测试结果来看，大模型目前的智力水平找个二本的理科专业已经绰绰有余。

各科目表现分析

语文：很好的写手，但缺乏情感

在语文考试中，大模型的客观题得分不错，但在写作上存在明显短板。18篇作文中有11篇超过48分，平均分46.8分。阅卷老师评价大模型的写作能力已超过学生平均水平，文章逻辑清晰、行文流畅，但普遍缺乏情感色彩和感染力。在客观题部分，大模型表现优异，百小应、豆包、元宝和GPT-4o的平均分都超过了120分，其中百小应较高的一次甚至考到了129分的高分。

英语：大模型的舒适区

在英语测试中，大模型的表现堪称压倒性。9个大模型的平均分达到132分，GPT-4o和百小应的平均分更是达到139分，半数以上超过130分。大模型在客观题上的出色表现并不意外，但应用文写作和读后续写部分仍有提升空间。智谱清言在应用文写作中表现最佳，而百小应在读后续写中得分最高。

数学：大模型的短板

大模型在数学上的表现令人意外地糟糕。即使是表现最好的GPT-4o也仅得70分（满分150分），总体平均分只有47分。大模型能够解决推理步骤简单的题目，但在复杂推导和证明问题上明显不足。此外，部分模型还存在将简单问题复杂化的情况。

文综与理综：文科优势明显

在文综考试中，GPT-4o和豆包分别取得237分和224.5分的优异成绩。历史和政治是大模型的强项，部分模型能达到80%以上的得分率，但地理由于涉及较多图片识别，表现相对较弱。相比之下，理综的成绩则逊色不少，生物作为“理科中的文科”表现最好，但平均分也只有39分和34分（满分110和100）。物理和化学由于实验探究能力要求较高，大模型普遍无法及格。