当大模型开始“考上”一本
当大模型开始“考上”一本
2024年高考成绩陆续揭晓,人们对于AI大模型的智力水平产生了浓厚的兴趣。为了探究AI大模型在高考中的表现,研究人员邀请了九个大模型参加这场考试,包括GPT-4o、百度文心4.0、阿里通义千问2.5等国内外知名大模型。他们使用2024年高考难度最高的新课标Ⅰ卷,并采用与人类考生相同的评判标准。最终结果显示,部分大模型已经具备了考取一本院校的实力,但数理学科的表现仍然不尽如人意。
考试设置与方法
本次测试使用2024年高考难度最高的新课标Ⅰ卷,涵盖了语文、数学、英语、文综(历史、地理、政治)和理综(物理、化学、生物)等多个科目。测试团队对所有科目进行两轮测试,取平均分。在测试过程中,采用Markdown/LaTeX格式输入公式,对于图像问题,根据模型的图片识别能力选择是否输入图片。判分方式与人类考生统一标准,选择题和填空题只看最终结果,解答题则参考标准答案按步骤算分。语文作文由专业教师打分,打分过程对AI产品做匿名处理。
整体成绩分析
整体来看,大模型在文科的表现更加优异,最高分可以达到562分(GPT-4o),相比之下理科成绩不尽如人意,最高只有478.5分,而且基本所有大模型的理科成绩都要比文科总成绩低70-80分。根据河南高考分数线,最高分的GPT-4o可以在国内最“卷”的河南超过一本线41分,豆包542.5分的文科成绩也稳稳超过一本线,紧随其后的是537.5分的文心4.0,以及正好卡到文科一本录取分数线521分的百小应。对于河南高考理科511分的一本线,表现最好的文心4.0仍然有超过30分的差距,但从测试结果来看,大模型目前的智力水平找个二本的理科专业已经绰绰有余。
各科目表现分析
语文:很好的写手,但缺乏情感
在语文考试中,大模型的客观题得分不错,但在写作上存在明显短板。18篇作文中有11篇超过48分,平均分46.8分。阅卷老师评价大模型的写作能力已超过学生平均水平,文章逻辑清晰、行文流畅,但普遍缺乏情感色彩和感染力。在客观题部分,大模型表现优异,百小应、豆包、元宝和GPT-4o的平均分都超过了120分,其中百小应较高的一次甚至考到了129分的高分。
英语:大模型的舒适区
在英语测试中,大模型的表现堪称压倒性。9个大模型的平均分达到132分,GPT-4o和百小应的平均分更是达到139分,半数以上超过130分。大模型在客观题上的出色表现并不意外,但应用文写作和读后续写部分仍有提升空间。智谱清言在应用文写作中表现最佳,而百小应在读后续写中得分最高。
数学:大模型的短板
大模型在数学上的表现令人意外地糟糕。即使是表现最好的GPT-4o也仅得70分(满分150分),总体平均分只有47分。大模型能够解决推理步骤简单的题目,但在复杂推导和证明问题上明显不足。此外,部分模型还存在将简单问题复杂化的情况。
文综与理综:文科优势明显
在文综考试中,GPT-4o和豆包分别取得237分和224.5分的优异成绩。历史和政治是大模型的强项,部分模型能达到80%以上的得分率,但地理由于涉及较多图片识别,表现相对较弱。相比之下,理综的成绩则逊色不少,生物作为“理科中的文科”表现最好,但平均分也只有39分和34分(满分110和100)。物理和化学由于实验探究能力要求较高,大模型普遍无法及格。
结语
本次测试表明,大模型在文科尤其是语言类科目上已具备较强竞争力,部分模型甚至能考取一本院校。然而,在数理学科上仍存在明显短板,尤其是在逻辑推理和复杂问题解决方面。随着AI技术的不断发展,大模型在高考中的表现有望持续提升,但要达到与人类相当的全面智力水平,仍需克服诸多挑战。