用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
创作时间:
作者:
@小白创作中心
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
引用
腾讯
1.
https://new.qq.com/rain/a/20240620A03J4N00
最近,上海人工智能实验室公布了一项引人注目的测试结果:使用多个开源大模型对2024年全国新课标I卷"语数外"进行测试。结果显示,虽然部分模型取得了较高的总分,但普遍存在着严重的偏科现象。
这项测试由上海人工智能实验室的司南评测体系OpenCompass主导,选取了7个开源大模型进行测试,包括OpenAI的GPT-4o、法国的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。
测试结果显示,阿里巴巴的Qwen2-72B大模型表现最佳,总分达到303分(满分420分)。GPT-4o以296分位居第二,InternLM2-20B-WQX以295.5分紧随其后。
然而,所有模型在数学部分都表现不佳,最低仅得21分,最高也只有75分。相比之下,语文和英语的成绩要好得多,语文平均得分率为67%,英语更是高达81%。
这一测试结果表明,现阶段的大模型在知识应用方面仍存在明显短板,尤其是在需要灵活运用公式的数学领域。对于这样的测试结果,你是否满意呢?
本文原文来自腾讯新闻
热门推荐
探究数字人民币:跨境理财新纪元的优势与前瞻
公司高管减持股票的现象:高管减持股票说明什么
2G信号放大器:提升2G网络覆盖,增强通信力量
“美美与共”:中国游戏共建全球叙事空间
收藏!北京放风筝宝藏地,这里全年都适宜——
天津牙科收费价目表2024-2025适用!牙科收费项目明细表
春季常见猪传染性疾病、猪呼吸道疾病和猪消化道疾病的治疗用什么药?
土豆牛腩:餐桌上的温馨佳肴
红旗HS5机油选择指南:全合成机油是最佳之选
同样是离开德云社,为什么李菁步步高升,何云伟曹云金却这么惨?
GDP陷负增长,这个经济特区怎么了?
歼8战斗机:从地狱开局到中国空军的里程碑
如何挑选最适合自己的智能手机:全面指南与实用建议
泰拉瑞亚新手攻略:从入门到精通
哪吒2海外发行商否认biubiubiu翻译 探讨咒语翻译的学问
美元指数跌至年内新低 外汇市场博弈加剧
头皮屑:类型、原因和有效的治疗方法
长期出现“齿痕舌”,并不只是湿气重,还可能是这几个原因
鹦鹉鱼的最佳水温与养殖技巧(科学调控水温,打造理想鹦鹉鱼养殖环境)
CPU频率游戏评测:揭秘电脑性能的秘密武器
被称“中国玫瑰之都”,这座山东小城究竟有多浪漫?
2024年深入探索摄影艺术:从器材选择到拍摄技巧的全面指南
重庆轨道智慧车窗火到海外 外国乘客点赞“魔窗”太酷了
南斯拉夫解体32年后:6个成员国发展现状大不同
当爱情失去生理吸引力:关系如何维系?
黄泉路:真实与传说之间的探讨
史光柱:从一级战斗英雄到著名作家、诗人、音乐家
老照片修复工作流教程:用 ComfyUI 轻松还原历史记忆
脉管炎和结节性红斑是一样吗?
央视连曝直播带货乱象,保健品虚假宣传、质检造假引监管风暴?