问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI参加河南高考:四款AI冲上文科一本线 理科成绩不尽人意

创作时间:
作者:
@小白创作中心

AI参加河南高考:四款AI冲上文科一本线 理科成绩不尽人意

引用
1
来源
1.
https://news.sina.cn/gn/2024-06-25/detail-inazxhwq1630894.d.html?fromsinago=1?fromsinago=1?fromsinago=1?fromsinago=1

2025年6月24日,高考新课标Ⅰ卷大模型评测结果揭晓。GPT-4o以562分位居文科总分榜首,字节跳动旗下的豆包以542.5分位列国产AI第一,百度文心一言4.0和百川智能“百小应”分别获得537.5分和521分。本次评测采用河南省高考卷,文科AI选手均超过一本线,理科成绩则相对落后。

文科表现:AI已达到优秀水平

在语文科目中,国产大模型展现了对中文语言的独特理解和处理能力。百小应、字节豆包和腾讯元宝位列前三,其中豆包以平均分52分的成绩夺得作文写作最高分。

负责本次阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师指出,AI写的文章大多结构清晰完整,逻辑性强,语言通顺流畅,但"理性有余而感性不足,缺乏感情色彩和感染力",这是大模型在语文科目中进一步提升的关键所在。

英语考试中,大模型在阅读和语言运用等客观题上表现出色,GPT-4o、百小应、通义千问等获得80分满分,豆包和文心4.0也接近满分。但在40分的写作考试中,最高分仅为29分,由GPT-4o和百小应获得。大模型在英语写作的表达丰富度和细节处理方面仍有待提高。

在文综考试中,GPT-4o以237分的总成绩展现出了较强的综合能力,平均得分达到79分,超越了多数人类考生。国产大模型中,字节豆包以224.5分拔得头筹,尤其是在历史科目中获得82.5分,位居所有参评大模型第一。GPT-4o在政治考试中以88分高分夺魁,但在地理科目中,由于大量图片问题的挑战,各模型表现普遍不佳。

理科成绩:与人类顶尖考生差距显著

相比文科,大模型在理科的表现则不尽如人意。在数学考试中,仅有GPT-4o、文心一言4.0和豆包获得60分以上的成绩(满分150分)。测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但在面对较为复杂的推导和证明问题时,得分能力明显不足。

在化学和物理考试中,情况更为严峻,平均分数分别只有34分和39分。化学单项最高分49.5分由豆包获得,而GPT-4o仅有42分。在物理考试中,一道基于常识"时间不会倒流"就能轻易排除错误选项的送分题,大模型却几乎全军覆没,凸显了大模型在应对考试灵活性方面的不足。

结论:AI技术进步显著,数理学科仍需突破

综合来看,此次大模型的高考评测结果表明,在过去一年多的时间里,国产AI技术在某些领域取得了显著进步,已经逐渐接近国际顶尖大模型的水平。但在数理学科方面,大模型仍面临着巨大的挑战,需要在算法优化、数据训练等方面持续发力,不断提升自身的能力,以更好地适应复杂多变的知识考查和应用场景。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号