2024年度中文大模型发展报告:o1以80.4分领跑全球,国内模型仍有差距
2024年度中文大模型发展报告:o1以80.4分领跑全球,国内模型仍有差距
2024年,AI大模型领域经历了前所未有的快速发展。从ChatGPT的横空出世,到各类创新模型的涌现,这一年见证了AI技术的显著进步。SuperCLUE发布的《中文大模型基准测评2024年度报告》对这一年的技术发展进行了全面的测评与分析,从模型能力、测评体系到具体表现,为我们呈现了一幅详尽的技术发展图景。
发展关键进展与趋势
自ChatGPT发布以来,AI大模型经历了准备期、跃进期、繁荣期和深化期四个阶段,全球范围内掀起了一股AI热潮,国内外机构在这一领域取得了实质性突破。
在模型全景方面,报告展示了包括文心一言、豆包、通义千问等众多国内外知名的通用闭源和开源大模型,以及在实时交互、推理、多模态等领域的特色模型。
在国内外差距方面,总体上,国内外第一梯队大模型在中文领域通用能力差距呈动态变化。2023年5月至2024年8月期间,国内模型与国外模型的差距有所缩小,但随着OpenAI的o1发布,差距再次拉大。
能力趋势显示,以DeepSeek-V3为代表的国产模型接近GPT-4o-latest的水平,但o1基于强化学习的新范式在推理能力上突破80分,进一步拉大了与顶尖模型的差距。
年度通用测评介绍
SuperCLUE是独立、领先的通用大模型综合性测评基准,具有“Live”更新、无数据污染、测评方式与用户交互一致、独立第三方等特征。测评体系涵盖了通用基准、文本专项、多模态、推理、Agent、AI应用等多个领域和层次。
12月报告聚焦通用能力测评,包括理科(计算、逻辑推理、代码)、文科(语言理解、生成创作、安全)和Hard(指令遵循、深度推理、Agent)三大维度,共1325道原创多轮简答题,并详细介绍了各维度测评说明、示例及评价方式。
总体测评结果与分析
o1以80.4分领跑全球,国内DeepSeek-V3和SenseChat 5.5-latest以68.3分领先国内其他模型,但与o1仍有差距。从基础能力和应用能力两个维度划分出潜力探索者、技术领跑者、实用主义者、卓越领导者四个象限,不同模型处于不同象限,反映其发展阶段与定位。
在多维度表现方面,国内模型在文科任务上有一定领先性,但在理科、Hard高难度任务上与海外头部模型差距较大;部分国产模型在推理效能和性价比上表现突出。
此外,报告还对开源模型、10B级别小模型、端侧5B级别小模型进行了榜单发布与分析,同时介绍了智能体Agent、推理、多模态、AI产品、行业、其他文本专项等测评基准,并给出部分优秀模型案例及核心能力介绍。