SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创作时间:
作者:
@小白创作中心
SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
引用
搜狐
1.
https://www.sohu.com/a/855563743_121853127
自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。
具体可分为:准备期、跃进期、繁荣期和深化期。
总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
代表性大模型基准表现趋势
- 以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest
在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。
- o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距
在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。
本文原文来自搜狐
热门推荐
基于深度学习方法下的产品订单数据分析与需求预测
如何仅使用加法减法和取倒数三种运算计算乘法
黄疸看眼睛哪个部位?如何通过眼部观察判断黄疸的严重程度?
棉花知识详解:从种植到应用的全面解析
新房交房验收:这些要点一定要注意
伦理厨房:如何通过烹饪传递家庭伦理与责任感,打造和谐的家庭关系
深蹲后大腿酸痛怎么办?原因、过程与缓解方法全解析
数据挖掘及其近年来研究热点介绍
用色彩管理备忘录正确设置达芬奇
全球最强坦克盘点:M1A2、T-14、豹2A7、99A谁与争锋?
柱、锥、台、球
吃鸡必看!《绝地求生》中吃鸡最稳的5把枪推荐!
如何正确使用氨茶碱?有哪些注意事项?
OpenAI转型营利惹众怒?马斯克、Meta和非营利组织Encode齐声反对
解锁编程奥秘:深入浅出带你了解函数
就餐时如何说话?这些餐桌礼仪你需要注意
公务员考试时事政治热点聚焦:申论热点解读与备考策略
全新治疗方法正在兴起,视网膜色素变性患者带来新希望
健身不受伤,科学是关键!五招教你如何安全高效地进行力量训练!
基于收益影响因素的REITs投资策略分析
新能源汽车VS传统燃油车:多角度对比助你选出最优车型
转让合伙企业份额,交个税时原值怎么确认?
不存在劳动关系举证如何证明
《朱同在三年级丢失了超能力》:给大人看的儿童片
寓意不错的肖姓男宝名字大全
单细胞流式双剑合璧|解码肝转移性结直肠癌的细胞异质性
网页字体选择指南:提升阅读体验的关键
北京东城区房价贵吗?探析区域价值和未来趋势
六偏磷酸钠是什么?有什么作用和用途?
长沙地铁5号线南延路线调整,配合奥体中心发展建设