问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

用AI来做全国高考试卷，真的有人试了！结果：成绩偏科很严重

创作时间:

作者:

@小白创作中心

用AI来做全国高考试卷，真的有人试了！结果：成绩偏科很严重

引用

腾讯

1.

https://new.qq.com/rain/a/20240620A03J4N00

最近，上海人工智能实验室公布了一项引人注目的测试结果：使用多个开源大模型对2024年全国新课标I卷"语数外"进行测试。结果显示，虽然部分模型取得了较高的总分，但普遍存在着严重的偏科现象。

这项测试由上海人工智能实验室的司南评测体系OpenCompass主导，选取了7个开源大模型进行测试，包括OpenAI的GPT-4o、法国的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。

测试结果显示，阿里巴巴的Qwen2-72B大模型表现最佳，总分达到303分（满分420分）。GPT-4o以296分位居第二，InternLM2-20B-WQX以295.5分紧随其后。

然而，所有模型在数学部分都表现不佳，最低仅得21分，最高也只有75分。相比之下，语文和英语的成绩要好得多，语文平均得分率为67%，英语更是高达81%。

这一测试结果表明，现阶段的大模型在知识应用方面仍存在明显短板，尤其是在需要灵活运用公式的数学领域。对于这样的测试结果，你是否满意呢？

本文原文来自腾讯新闻

热门推荐

豌豆尖的绝妙搭配：皮蛋、豆腐、蘑菇，让美味更上一层楼

豌豆尖的绝妙搭配：皮蛋、豆腐、蘑菇，让美味更上一层楼

冬日必吃“神仙菜”，豆苗烧汤养肝又清热！

冬日必吃“神仙菜”，豆苗烧汤养肝又清热！

恩施屏山峡谷全攻略：从购票到住宿，玩转恩施最美景区

恩施屏山峡谷全攻略：从购票到住宿，玩转恩施最美景区

探秘湖北恩施梭布垭石林：地质奇观与自然美景的完美融合

探秘湖北恩施梭布垭石林：地质奇观与自然美景的完美融合

中国电建专家团队在筠连县山体滑坡现场：科技助力救援，专家昼夜坚守

中国电建专家团队在筠连县山体滑坡现场：科技助力救援，专家昼夜坚守

筠连县山体滑坡：一场科学与温情交织的救援行动

筠连县山体滑坡：一场科学与温情交织的救援行动

Qt编译错误？这些坑你踩过吗？

Qt编译错误？这些坑你踩过吗？

应急车道应急用违法占用被处罚

应急车道应急用违法占用被处罚

走应急车道扣分吗

走应急车道扣分吗

白发原因全解析：从位置到改善方法，让你重新拥有乌黑秀发

白发原因全解析：从位置到改善方法，让你重新拥有乌黑秀发

研究揭示：与猫交流的简单技巧

研究揭示：与猫交流的简单技巧

股权交易中的法律雷区，你踩到了吗？

股权交易中的法律雷区，你踩到了吗？

小太阳鹦鹉孵化期卫生安全指南

小太阳鹦鹉孵化期卫生安全指南

唐代女性的社会地位与生活状态

唐代女性的社会地位与生活状态

抗战胜利纪念：重温太原会战的战略意义

抗战胜利纪念：重温太原会战的战略意义

柠檬水真的能缓解感冒流鼻涕吗？

柠檬水真的能缓解感冒流鼻涕吗？

医生推荐：快速缓解流鼻涕的实用指南

医生推荐：快速缓解流鼻涕的实用指南

鸡汤、橙子和蜂蜜：冬季流鼻涕的天然救星

鸡汤、橙子和蜂蜜：冬季流鼻涕的天然救星

抗日战争中的太原会战：那些不为人知的故事

抗日战争中的太原会战：那些不为人知的故事

牛蒡茶：天然保健饮品，健康生活新选择

牛蒡茶：天然保健饮品，健康生活新选择

牛蒡茶正确的泡法及注意事项：如何正确泡制牛蒡茶

牛蒡茶正确的泡法及注意事项：如何正确泡制牛蒡茶

牛满江博士亲述：中脉养生的神奇效果

牛满江博士亲述：中脉养生的神奇效果

口头协议怎么保留证据呢?

口头协议怎么保留证据呢?

打呼噜的十大危害你都知道吗

打呼噜的十大危害你都知道吗

2025 AI“平替”危机：大批程序员真的会被取代吗？

2025 AI“平替”危机：大批程序员真的会被取代吗？

防蚊虫“必杀技”来了！看看“网红”驱蚊方法有实效吗

防蚊虫“必杀技”来了！看看“网红”驱蚊方法有实效吗

古代陶瓷文物修复中的材料科学与工艺研究

古代陶瓷文物修复中的材料科学与工艺研究

冬日打卡西安广仁寺：摄影指南

冬日打卡西安广仁寺：摄影指南

西安广仁寺：一座见证民族团结的皇家寺院

西安广仁寺：一座见证民族团结的皇家寺院

康熙御笔推荐：西安广仁寺探秘

康熙御笔推荐：西安广仁寺探秘

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号