问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

2024年度中文大模型发展报告：o1以80.4分领跑全球，国内模型仍有差距

创作时间:

作者:

@小白创作中心

2024年度中文大模型发展报告：o1以80.4分领跑全球，国内模型仍有差距

引用

搜狐

1.

https://www.sohu.com/a/847167335_121752970

2024年，AI大模型领域经历了前所未有的快速发展。从ChatGPT的横空出世，到各类创新模型的涌现，这一年见证了AI技术的显著进步。SuperCLUE发布的《中文大模型基准测评2024年度报告》对这一年的技术发展进行了全面的测评与分析，从模型能力、测评体系到具体表现，为我们呈现了一幅详尽的技术发展图景。

发展关键进展与趋势

自ChatGPT发布以来，AI大模型经历了准备期、跃进期、繁荣期和深化期四个阶段，全球范围内掀起了一股AI热潮，国内外机构在这一领域取得了实质性突破。

在模型全景方面，报告展示了包括文心一言、豆包、通义千问等众多国内外知名的通用闭源和开源大模型，以及在实时交互、推理、多模态等领域的特色模型。

在国内外差距方面，总体上，国内外第一梯队大模型在中文领域通用能力差距呈动态变化。2023年5月至2024年8月期间，国内模型与国外模型的差距有所缩小，但随着OpenAI的o1发布，差距再次拉大。

能力趋势显示，以DeepSeek-V3为代表的国产模型接近GPT-4o-latest的水平，但o1基于强化学习的新范式在推理能力上突破80分，进一步拉大了与顶尖模型的差距。

年度通用测评介绍

SuperCLUE是独立、领先的通用大模型综合性测评基准，具有“Live”更新、无数据污染、测评方式与用户交互一致、独立第三方等特征。测评体系涵盖了通用基准、文本专项、多模态、推理、Agent、AI应用等多个领域和层次。

12月报告聚焦通用能力测评，包括理科（计算、逻辑推理、代码）、文科（语言理解、生成创作、安全）和Hard（指令遵循、深度推理、Agent）三大维度，共1325道原创多轮简答题，并详细介绍了各维度测评说明、示例及评价方式。

总体测评结果与分析

o1以80.4分领跑全球，国内DeepSeek-V3和SenseChat 5.5-latest以68.3分领先国内其他模型，但与o1仍有差距。从基础能力和应用能力两个维度划分出潜力探索者、技术领跑者、实用主义者、卓越领导者四个象限，不同模型处于不同象限，反映其发展阶段与定位。

在多维度表现方面，国内模型在文科任务上有一定领先性，但在理科、Hard高难度任务上与海外头部模型差距较大；部分国产模型在推理效能和性价比上表现突出。

此外，报告还对开源模型、10B级别小模型、端侧5B级别小模型进行了榜单发布与分析，同时介绍了智能体Agent、推理、多模态、AI产品、行业、其他文本专项等测评基准，并给出部分优秀模型案例及核心能力介绍。

热门推荐

儿童安全座椅选购安装全攻略！为孩子出行筑起全方位守护的铜墙铁壁

儿童安全座椅选购安装全攻略！为孩子出行筑起全方位守护的铜墙铁壁

圣诞节家庭聚会摄影技巧大揭秘！📸🎄

圣诞节家庭聚会摄影技巧大揭秘！📸🎄

家庭生日聚会上最感人肺腑的祝福

家庭生日聚会上最感人肺腑的祝福

家庭生日聚会必备：狼人杀&三国杀，嗨翻全场！

家庭生日聚会必备：狼人杀&三国杀，嗨翻全场！

如何为家庭生日聚会留下美好回忆？

如何为家庭生日聚会留下美好回忆？

8道家庭聚会必备美食：简单易做，美味十足！

8道家庭聚会必备美食：简单易做，美味十足！

陆羽教你如何泡一杯好茶？

陆羽教你如何泡一杯好茶？

手机NFC设置门禁卡全攻略：操作步骤与注意事项

手机NFC设置门禁卡全攻略：操作步骤与注意事项

中医教你：九种体质如何正确饮茶

中医教你：九种体质如何正确饮茶

院士研究证实：饮茶可降低心血管疾病风险

院士研究证实：饮茶可降低心血管疾病风险

对话式排版：让公众号文章更有温度的秘诀

对话式排版：让公众号文章更有温度的秘诀

《关键对话》：教你轻松应对人生关键时刻

《关键对话》：教你轻松应对人生关键时刻

构建电商运营核心能力：从入门到精通的关键步骤

构建电商运营核心能力：从入门到精通的关键步骤

什么样的砖称为环保砖

什么样的砖称为环保砖

《异世界OL》战斗系职业详解——术士篇

《异世界OL》战斗系职业详解——术士篇

“一点红”番薯：从田间到餐桌的致富新宠

“一点红”番薯：从田间到餐桌的致富新宠

手机电话卡给别人用会有麻烦吗

手机电话卡给别人用会有麻烦吗

摄影的镜头语言：景别与视角拍照取景教学，教你拍出会讲故事的好照片

摄影的镜头语言：景别与视角拍照取景教学，教你拍出会讲故事的好照片

无锡周末出游攻略：雨天也能玩得开心

无锡周末出游攻略：雨天也能玩得开心

南禅寺&荡口古镇：禅意红枫与水乡风情的完美邂逅

南禅寺&荡口古镇：禅意红枫与水乡风情的完美邂逅

每天了解一个繁华城市—耶路撒冷

每天了解一个繁华城市—耶路撒冷

关之琳刘嘉玲陈泰铭：一段三角恋的始末

关之琳刘嘉玲陈泰铭：一段三角恋的始末

关之琳与27岁男模的姐弟恋：一段跨越35岁的爱情

关之琳与27岁男模的姐弟恋：一段跨越35岁的爱情

符箓咒语秘术：道教法术与超自然力量的探索

符箓咒语秘术：道教法术与超自然力量的探索

产后鸡皮肤护理：水杨酸+维B的秘密武器

产后鸡皮肤护理：水杨酸+维B的秘密武器

丰田混动车主必看：日常保养全攻略

丰田混动车主必看：日常保养全攻略

麦考瑞大学：澳洲顶尖学府的留学价值与申请指南

麦考瑞大学：澳洲顶尖学府的留学价值与申请指南

麦考瑞大学：从殖民地总督到全球百强

麦考瑞大学：从殖民地总督到全球百强

五一假期——上“火星” 品美食！（内附金昌美食全攻略）

五一假期——上“火星” 品美食！（内附金昌美食全攻略）

适合春游的城市！有你的目的地吗？

适合春游的城市！有你的目的地吗？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号