用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
创作时间:
作者:
@小白创作中心
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
引用
腾讯
1.
https://new.qq.com/rain/a/20240620A03J4N00
最近,上海人工智能实验室公布了一项引人注目的测试结果:使用多个开源大模型对2024年全国新课标I卷"语数外"进行测试。结果显示,虽然部分模型取得了较高的总分,但普遍存在着严重的偏科现象。
这项测试由上海人工智能实验室的司南评测体系OpenCompass主导,选取了7个开源大模型进行测试,包括OpenAI的GPT-4o、法国的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。
测试结果显示,阿里巴巴的Qwen2-72B大模型表现最佳,总分达到303分(满分420分)。GPT-4o以296分位居第二,InternLM2-20B-WQX以295.5分紧随其后。
然而,所有模型在数学部分都表现不佳,最低仅得21分,最高也只有75分。相比之下,语文和英语的成绩要好得多,语文平均得分率为67%,英语更是高达81%。
这一测试结果表明,现阶段的大模型在知识应用方面仍存在明显短板,尤其是在需要灵活运用公式的数学领域。对于这样的测试结果,你是否满意呢?
本文原文来自腾讯新闻
热门推荐
豌豆尖的绝妙搭配:皮蛋、豆腐、蘑菇,让美味更上一层楼
冬日必吃“神仙菜”,豆苗烧汤养肝又清热!
恩施屏山峡谷全攻略:从购票到住宿,玩转恩施最美景区
探秘湖北恩施梭布垭石林:地质奇观与自然美景的完美融合
中国电建专家团队在筠连县山体滑坡现场:科技助力救援,专家昼夜坚守
筠连县山体滑坡:一场科学与温情交织的救援行动
Qt编译错误?这些坑你踩过吗?
应急车道应急用 违法占用被处罚
走应急车道扣分吗
白发原因全解析:从位置到改善方法,让你重新拥有乌黑秀发
研究揭示:与猫交流的简单技巧
股权交易中的法律雷区,你踩到了吗?
小太阳鹦鹉孵化期卫生安全指南
唐代女性的社会地位与生活状态
抗战胜利纪念:重温太原会战的战略意义
柠檬水真的能缓解感冒流鼻涕吗?
医生推荐:快速缓解流鼻涕的实用指南
鸡汤、橙子和蜂蜜:冬季流鼻涕的天然救星
抗日战争中的太原会战:那些不为人知的故事
牛蒡茶:天然保健饮品,健康生活新选择
牛蒡茶正确的泡法及注意事项:如何正确泡制牛蒡茶
牛满江博士亲述:中脉养生的神奇效果
口头协议怎么保留证据呢?
打呼噜的十大危害你都知道吗
2025 AI“平替”危机:大批程序员真的会被取代吗?
防蚊虫“必杀技”来了!看看“网红”驱蚊方法有实效吗
古代陶瓷文物修复中的材料科学与工艺研究
冬日打卡西安广仁寺:摄影指南
西安广仁寺:一座见证民族团结的皇家寺院
康熙御笔推荐:西安广仁寺探秘