用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
创作时间:
作者:
@小白创作中心
用AI来做全国高考试卷,真的有人试了!结果:成绩偏科很严重
引用
腾讯
1.
https://new.qq.com/rain/a/20240620A03J4N00
最近,上海人工智能实验室公布了一项引人注目的测试结果:使用多个开源大模型对2024年全国新课标I卷"语数外"进行测试。结果显示,虽然部分模型取得了较高的总分,但普遍存在着严重的偏科现象。
这项测试由上海人工智能实验室的司南评测体系OpenCompass主导,选取了7个开源大模型进行测试,包括OpenAI的GPT-4o、法国的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。
测试结果显示,阿里巴巴的Qwen2-72B大模型表现最佳,总分达到303分(满分420分)。GPT-4o以296分位居第二,InternLM2-20B-WQX以295.5分紧随其后。
然而,所有模型在数学部分都表现不佳,最低仅得21分,最高也只有75分。相比之下,语文和英语的成绩要好得多,语文平均得分率为67%,英语更是高达81%。
这一测试结果表明,现阶段的大模型在知识应用方面仍存在明显短板,尤其是在需要灵活运用公式的数学领域。对于这样的测试结果,你是否满意呢?
本文原文来自腾讯新闻
热门推荐
虚数单位 "i":从数学概念到实际应用
外地车牌过户、转移迁入广州车牌办理通用指南(成功自己办理版)
外卖前端图片设计:从清晰度到品牌一致性,打造吸引用户的视觉体验
藏红花泡酒比例和喝法 藏红花泡酒有什麼好處
家庭光伏发电系统的创新技术与趋势
拆迁中关于签字和赔偿的法律解答
我国科学家在空间通信用激光器研究取得重要突破
微水泥的历史:从工业材料到现代设计新宠
光纤界的较量:单模VS多模,究竟谁才是速度之王?
什么是非融资性担保的定义?这种担保方式的优势在哪里?
吐血死亡是什么原因
君子兰不开花?试试这个小妙招,轻松催花!
超越死亡:打造人机融合的未来之躯
ENTP-T 人格类型解析:特点、优缺点及建议
土木工程专业,就业前景怎么样?专家:就业率超高,但报考需谨慎
如何比较不同投资的日收益率?
抽奖机制设计及其法律监管研究
无风不起浪”和“无风三尺浪”及人体内的“波涛汹涌
福建省事业单位考试《综合基础知识》考情分析
提拉式洗碗机:家用适用性的全面解析
如何优化网络协议以提高传输速率
氧化石墨烯的电化学制备技术取得重要进展
徐高:中国房地产业的困境和对策
深度解析员工成长与晋升的关系:从个人发展到组织战略的成功之路
驱动程序开发需要掌握哪些硬件知识
耶鲁大学 | Shulman教授:逆转胰岛素抵抗的科学之道
托管机构如何提升教学质量?
个人所得税费用减除标准详解
日本留学之学日语要具备多少词汇量?了解不同阶段的日语词汇要求
政府采购合同分包履行的策略与管理