问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重

创作时间:
作者:
@小白创作中心

用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重

引用
腾讯
1.
https://new.qq.com/rain/a/20240620A03J4N00

最近,上海人工智能实验室公布了一项引人注目的测试结果:使用多个开源大模型对2024年全国新课标I卷"语数外"进行测试。结果显示,虽然部分模型取得了较高的总分,但普遍存在着严重的偏科现象。

这项测试由上海人工智能实验室的司南评测体系OpenCompass主导,选取了7个开源大模型进行测试,包括OpenAI的GPT-4o、法国的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。

测试结果显示,阿里巴巴的Qwen2-72B大模型表现最佳,总分达到303分(满分420分)。GPT-4o以296分位居第二,InternLM2-20B-WQX以295.5分紧随其后。

然而,所有模型在数学部分都表现不佳,最低仅得21分,最高也只有75分。相比之下,语文和英语的成绩要好得多,语文平均得分率为67%,英语更是高达81%。

这一测试结果表明,现阶段的大模型在知识应用方面仍存在明显短板,尤其是在需要灵活运用公式的数学领域。对于这样的测试结果,你是否满意呢?

本文原文来自腾讯新闻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号