问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

当大模型开始“考上”一本

创作时间:

作者:

@小白创作中心

当大模型开始“考上”一本

引用

1

来源

1.

https://www.chinaventure.com.cn/news/78-20240625-381674.html

2024年高考成绩陆续揭晓，人们对于大模型的智力水平产生了浓厚的兴趣。为了回答这个备受关注的问题，我们特别邀请了九个大模型参加这场特殊的考试，其中包括GPT-4o、百度文心4.0、阿里通义千问2.5等国内外知名大模型。他们将使用2024年高考难度最高的新课标Ⅰ卷进行测试，让我们一起来看看这些"考生"的表现如何。

考试方法与评判标准

本次测试采用2024年高考难度最高的新课标Ⅰ卷，涵盖语文、数学、英语、文综和理综等科目。测试团队对所有科目进行两轮测试，取平均分。在判分方式上，选择题和填空题只看最终结果，不考虑模型解题过程是否准确；多选题如提交错误答案为零分，如提交部分正确答案，则按相应比例给分；解答题由测试团队参考标准答案，按照解题步骤算分。语文作文则由北京市级骨干教师、怀柔区语文学科带头人夏老师打分，她具有多次参加全国高考语文阅卷的经历。

考试结果概览

整体来看，大模型在文科的表现更加优异，最高分可以达到562分（GPT-4o）。相比之下，理科成绩不尽如人意，最高只有478.5分，而且基本所有大模型的理科成绩都要比文科总成绩低70-80分。

根据河南高考分数线，最高分的GPT-4o可以在国内最"卷"的河南超过一本线41分，豆包542.5分的文科成绩也稳稳超过一本线，紧随其后的是537.5分的文心4.0，以及正好卡到文科一本录取分数线521分的百小应。

对于河南高考理科511分的一本线，表现最好的文心4.0仍然有超过30分的差距，但从测试结果来看，大模型目前的智力水平找个二本的理科专业已经绰绰有余。

各科目表现分析

语文：很好的写手，但缺乏情感

在语文考试中，大模型的客观题得分不错，包括GPT-4o在内的大多数模型都能拿到满分。但在作文部分，大模型的表现则暴露出一些瓶颈。虽然18篇作文中有11篇超过了48分，平均分在46.8分左右，但阅卷老师指出，大模型的写作普遍存在"理性有余，感性不足"的问题，缺乏感情色彩和感染力。

例如，文心4.0在作文中能够清晰地展示论述框架和逻辑，但结尾表达升华不够，套路化明显。而腾讯元宝则在语言表达上展现出较高的水平，但整体上仍难以产生优秀作文（一类文）。

英语：大模型的舒适区

在英语测试中，大模型的表现堪称压倒性。9个大模型的平均分达到132分，GPT-4o和百小应的平均分更是达到139分。在客观题部分，大多数模型都能拿到满分或接近满分的分数。但在应用文写作和读后续写部分，大模型的表现则有所下降，主要问题包括指令识别错误、内容空泛、句式单一等。

数学：大模型的短板

大模型在数学上的表现令人意外地糟糕。即使是表现最好的GPT-4o也只得了70分（满分150分），而9款产品的数学平均分只有47分。大多数模型只能解决推理步骤相对简单的题目，对于复杂的推导和证明则难以得分。此外，部分模型还存在把简单问题复杂化的情况。

文综与理综：文科优势明显

在文综和理综的对比中，大模型在文科的表现明显优于理科。在历史和政治两科，测试选手中有三至四家能达到80%以上的得分率。特别是GPT-4o在政治考试中得到了夸张的91.5分。相比之下，地理考试是文综三科中大模型表现最差的，最高分仅为GPT-4o的68分。

在理综方面，大模型在生物学科的表现相对较好，但整体成绩仍然不佳。满分90分的生物试卷，表现最优秀的文心4.0和通义千问分别得到了65分和62分。而在物理和化学学科，各模型目前仍无法及格，平均分只有39分和34分。

结语

从这次测试结果来看，大模型在文科方面已经具备了相当的竞争力，接近半数的模型已经有资格拿到一张一本文科的录取通知书。但与此同时，测试结果也表明了，即使性能最顶尖的大模型产品们，目前也仍然在高考的数理化考题里疲于应付。

从几年前AI开始尝试做小学题目，到2022年第一次有人将AI带进高考的英语考场，再到如今它成为一个有不错竞争力的高考"偏科生"。一次次与人类智力的比较，为我们朴素地"翻译"出了目前最顶尖人工智能的智力水平究竟如何。而像所有人类学子一样，这场高考的结束，最终会变成每个大模型新的起点。

热门推荐

德川家康怎样避免丰臣二世而亡的悲剧，江户幕府传承长久

德川家康怎样避免丰臣二世而亡的悲剧，江户幕府传承长久

潘粤明董洁离婚十一年：一个被骂惨，一个再度爆红

潘粤明董洁离婚十一年：一个被骂惨，一个再度爆红

西班牙在南美洲的殖民活动对原住民文化影响有多大？

西班牙在南美洲的殖民活动对原住民文化影响有多大？

楼市政策变化对房价有何影响？

楼市政策变化对房价有何影响？

响应式网站设计如何提升用户体验

响应式网站设计如何提升用户体验

晚上睡觉唾液分泌过多怎么办？

晚上睡觉唾液分泌过多怎么办？

线面垂直：判断方法解析与应用场景

线面垂直：判断方法解析与应用场景

用户提的需求真的是他们想要的吗？项目管理中如何确认？

用户提的需求真的是他们想要的吗？项目管理中如何确认？

庄子的茶道真谛：虚静、恬淡、寂漠、无为

庄子的茶道真谛：虚静、恬淡、寂漠、无为

赵丽颖10部经典剧，《花千骨》《楚乔传》《知否》上榜，你看过哪些？

赵丽颖10部经典剧，《花千骨》《楚乔传》《知否》上榜，你看过哪些？

优雅撤销决定的策略与反思：从错误中学习与成长之路

优雅撤销决定的策略与反思：从错误中学习与成长之路

博士和博士后的研究方向有何不同？

博士和博士后的研究方向有何不同？

项目训练目标如何写

项目训练目标如何写

风景园林专业就业前景和就业方向分析

风景园林专业就业前景和就业方向分析

社区"宝宝屋"托育服务升级！帮你科学带娃→

社区"宝宝屋"托育服务升级！帮你科学带娃→

宽容是一种修养，更是一种智慧

宽容是一种修养，更是一种智慧

做市商的运作机制是怎样的？这种运作机制对市场流动性有何影响？

做市商的运作机制是怎样的？这种运作机制对市场流动性有何影响？

让肿瘤患者活得更长，Trop-2抗体偶联药戈沙妥珠单抗治疗晚期肺癌！

让肿瘤患者活得更长，Trop-2抗体偶联药戈沙妥珠单抗治疗晚期肺癌！

盘点2024评分前十电视剧：《小巷人家》第六，《我是刑警》没上榜

盘点2024评分前十电视剧：《小巷人家》第六，《我是刑警》没上榜

新教材，新挑战，家长如何助力孩子跨越英语学习的变革期

新教材，新挑战，家长如何助力孩子跨越英语学习的变革期

"药王"沉香，人民网描述的沉香功效！

"药王"沉香，人民网描述的沉香功效！

临邑县林子镇：产业联建串起乡村“共富链”

临邑县林子镇：产业联建串起乡村“共富链”

西餐菜谱（36道简单美味的高端西餐菜谱，在家就能做，简单又好用）

西餐菜谱（36道简单美味的高端西餐菜谱，在家就能做，简单又好用）

新加坡工签条件：申请工作准证的要求和流程

新加坡工签条件：申请工作准证的要求和流程

游泳前的热身与拉伸指南：从陆上到水中全方位准备

游泳前的热身与拉伸指南：从陆上到水中全方位准备

NAS网络存储如何做RAID

NAS网络存储如何做RAID

八字命理分析：从儿格局与普通格局的辨析

八字命理分析：从儿格局与普通格局的辨析

集齐了高血压高血糖高血脂，怎么吃饭？

集齐了高血压高血糖高血脂，怎么吃饭？

股票私募佣金如何计算？私募股权融资全攻略

股票私募佣金如何计算？私募股权融资全攻略

浅谈培养初一学生数学纠错能力

浅谈培养初一学生数学纠错能力

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号