问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

SuperCLUE：2024年中文大模型基准测评报告，端侧小模型表现惊艳

创作时间:

作者:

@小白创作中心

SuperCLUE：2024年中文大模型基准测评报告，端侧小模型表现惊艳

引用

搜狐

1.

https://www.sohu.com/a/855563743_121853127

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。

具体可分为：准备期、跃进期、繁荣期和深化期。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的18个月的迭代周期，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%。但随着o1的发布，差距再次拉大到15.05%。

代表性大模型基准表现趋势

以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中，国产代表性模型持续迭代多个版本，DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色，在12月测评中有超过Claude3.5Sonnet的表现。

o1基于强化学习新范式的推理模型，突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中，国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表，尤其o1正式版突破了80分大关，展现出较大的领先优势。

本文原文来自搜狐

热门推荐

舌尖上的情绪交响：饮食与情绪的相互作用

舌尖上的情绪交响：饮食与情绪的相互作用

在家如何选择合适的洗牙工具？使用什么产品可以有效清洁牙齿？

在家如何选择合适的洗牙工具？使用什么产品可以有效清洁牙齿？

永久修改Docker容器中hosts文件的三种方法

永久修改Docker容器中hosts文件的三种方法

手机卡修复教程（从卡槽清理到数据恢复，让你的手机卡焕发新生）

手机卡修复教程（从卡槽清理到数据恢复，让你的手机卡焕发新生）

从“冰墩墩”到“蛇墩墩”，“顶流”何以长红？

从“冰墩墩”到“蛇墩墩”，“顶流”何以长红？

Excel中根据尺寸计算面积的多种方法

Excel中根据尺寸计算面积的多种方法

怎么用Excel计算图形面积

怎么用Excel计算图形面积

华硕主板Windows 11安全启动设置指南：从入门到精通

华硕主板Windows 11安全启动设置指南：从入门到精通

2024年软科中国大学哲学专业排名：复旦、北大、南大位列前三

2024年软科中国大学哲学专业排名：复旦、北大、南大位列前三

长篇硬核干货，健身爱好者必看：过度训练与疲劳恢复

长篇硬核干货，健身爱好者必看：过度训练与疲劳恢复

债券市场分析法：揭示市场规律，助力投资决策

债券市场分析法：揭示市场规律，助力投资决策

如何提升居住的舒适度和满意度？这种提升需要做哪些努力？

如何提升居住的舒适度和满意度？这种提升需要做哪些努力？

一元二次方程：解题技巧与应用场景

一元二次方程：解题技巧与应用场景

献血对身体的8个惊人好处

献血对身体的8个惊人好处

床单的种类有哪些，如何根据需求选择合适的类型？

床单的种类有哪些，如何根据需求选择合适的类型？

拔智齿前后一般注意事项清单

拔智齿前后一般注意事项清单

三年级孩子怎么学英语？这些技巧帮你的孩子轻松应对

三年级孩子怎么学英语？这些技巧帮你的孩子轻松应对

国有企业提干流程：从员工到管理层的晋升之路

国有企业提干流程：从员工到管理层的晋升之路

胃火大的十大症状表现：果中寻凉，探秘胃火旺盛的警世钟声

胃火大的十大症状表现：果中寻凉，探秘胃火旺盛的警世钟声

胃火旺怎么调理饮食

胃火旺怎么调理饮食

入职背景调查会问前公司什么问题

入职背景调查会问前公司什么问题

植树造林如何提升生态优势？探讨绿色环保对未来的深远影响与个人行动意义

植树造林如何提升生态优势？探讨绿色环保对未来的深远影响与个人行动意义

光伏发电防逆流保护装置使用指南

光伏发电防逆流保护装置使用指南

个体经营土石方工程的法律性质与责任承担

个体经营土石方工程的法律性质与责任承担

Excel平均值标准差图制作详解

Excel平均值标准差图制作详解

什么是尊重生命？敬畏生命：你对生命拥有何种理解？!

什么是尊重生命？敬畏生命：你对生命拥有何种理解？!

《荷塘月色》赏析

《荷塘月色》赏析

研究证实：规律睡眠可减少夜尿，延长睡眠时间

研究证实：规律睡眠可减少夜尿，延长睡眠时间

银行的金融科技发展趋势是什么？

银行的金融科技发展趋势是什么？

九种蔬菜防便秘

九种蔬菜防便秘

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号