SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创作时间:
作者:
@小白创作中心
SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
引用
搜狐
1.
https://www.sohu.com/a/855563743_121853127
自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。
具体可分为:准备期、跃进期、繁荣期和深化期。
总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
代表性大模型基准表现趋势
- 以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest
在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。
- o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距
在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。
本文原文来自搜狐
热门推荐
舌尖上的情绪交响:饮食与情绪的相互作用
在家如何选择合适的洗牙工具?使用什么产品可以有效清洁牙齿?
永久修改Docker容器中hosts文件的三种方法
手机卡修复教程(从卡槽清理到数据恢复,让你的手机卡焕发新生)
从“冰墩墩”到“蛇墩墩”,“顶流”何以长红?
Excel中根据尺寸计算面积的多种方法
怎么用Excel计算图形面积
华硕主板Windows 11安全启动设置指南:从入门到精通
2024年软科中国大学哲学专业排名:复旦、北大、南大位列前三
长篇硬核干货,健身爱好者必看:过度训练与疲劳恢复
债券市场分析法:揭示市场规律,助力投资决策
如何提升居住的舒适度和满意度?这种提升需要做哪些努力?
一元二次方程:解题技巧与应用场景
献血对身体的8个惊人好处
床单的种类有哪些,如何根据需求选择合适的类型?
拔智齿前后一般注意事项清单
三年级孩子怎么学英语?这些技巧帮你的孩子轻松应对
国有企业提干流程:从员工到管理层的晋升之路
胃火大的十大症状表现:果中寻凉,探秘胃火旺盛的警世钟声
胃火旺怎么调理饮食
入职背景调查会问前公司什么问题
植树造林如何提升生态优势?探讨绿色环保对未来的深远影响与个人行动意义
光伏发电防逆流保护装置使用指南
个体经营土石方工程的法律性质与责任承担
Excel平均值标准差图制作详解
什么是尊重生命?敬畏生命:你对生命拥有何种理解?!
《荷塘月色》赏析
研究证实:规律睡眠可减少夜尿,延长睡眠时间
银行的金融科技发展趋势是什么?
九种蔬菜防便秘