SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创作时间:
作者:
@小白创作中心
SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
引用
搜狐
1.
https://www.sohu.com/a/855563743_121853127
自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。
具体可分为:准备期、跃进期、繁荣期和深化期。
总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
代表性大模型基准表现趋势
- 以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest
在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。
- o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距
在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。
本文原文来自搜狐
热门推荐
马齿苋的营养秘密:ω-3含量超鲈鱼,这样吃更安全
马齿苋煮水七大功效,这些禁忌需谨记
邮政储蓄卡折坏补办指南:可保留原卡号
古诗词里的陈字佳句,你最爱哪一句?
陈瑞祥:2024最热男孩名字
墨西哥:拉美“领头羊”正奋蹄
中墨贸易关系密切,逆差大,主要进出口哪些产品
父亲角色不可替代:对孩子认知发展和心理健康有重要影响
特级大师王天一因买棋被批捕,涉案金额超80万
中国象棋重拳整治:41人被罚,5人终身禁赛
全日制教育的意义与挑战:培养知识、能力与社交技能的重要平台
健康保险参保人数创新高,多层次医疗保障体系加速构建
王者荣耀吕布法师打野完全指南:出装、铭文与实战技巧详解
2024年上半年中国与美国农产品贸易分析:出口增长、进口下降
从便捷到安全:生物识别与区块链重塑移动支付未来
移动支付驱动澳门智慧城市建设,前三季度交易增86%
雷电将军领衔,《原神》最新高效输出阵容推荐
电动汽车的扭矩秘密:加速王者?
鼓轮扭矩在机械设计中的神奇应用
从应用权限到安全上网:数字化时代的隐私保护指南
山西稷山发现后稷时代遗址,实证农业之神历史功绩
最新考古发现印证:后稷开创农耕文明,从弃儿到“农神”
旅客高效出行——贵阳机场航班截载时间延后5分钟背后的故事
春运乘机指南:证件准备、安检流程全攻略
《中国公民健康素养》教你正确使用家用血压计
冬季心血管预警:电子血压计的正确使用
家用血压计黑科技揭秘:测血压也能这么酷?
最新会计科目表解读:企业如何正确设置会计科目
《原神》茜特菈莉:冰系多功能辅助角色培养指南
企业发票管理制度:六大环节操作规范与违规处罚