问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

著名大模型评测榜单（不同评测方式）

创作时间:

作者:

@小白创作中心

著名大模型评测榜单（不同评测方式）

引用

CSDN

1.

https://blog.csdn.net/Guzith/article/details/145521143

在评估大语言模型的性能时，一种主流的途径就是选择不同的能力维度并且构建对应的评测任务，进而使用这些能力维度的评测任务对模型的性能进行测试与对比。由大型机构或者研究院所排出榜单。

评测指标

不同评测任务有不同的评指标，衡量模型的能力，也需要使用不同的评测方法。常见评测指标如下：

评测方法

根据评测方式及指标的不同，就需要不同评测方法。例如在偏高和排序类任务中，衡量的使用模型在候选者中的相对水平，模型之间做比较，那么就需要人类参与，真人评估。因此针对上述能力维度的评估方法可以分为三种方式：

基于评测基准评估
基于人类评估
基于模型评估

评测方法以及典型评测工作
这三种评测方法都有知名的评测榜单。评测需要考核题目也就是数据集。有面向知识的评测数据集如MMLU、C-Eval侧重于评估大语言模型对现实世界知识的理解和应用；有面向推理的评测数据集如GSM8K、BBH和MATH考察模型在解决复杂推理问题时的表现。此外，一些综合评测体系如OpenCompass平台尝试将这两类评测任务相结合，更全面地评估大语言模型的综合能力。数据集详细介绍可查看大模型评测方法（三）_知识库大模型测试集

基于评测基准评估

评估方式

在进行基准评估时，首先将每个评测任务的具体样本转化为模型可以理解的提示语，引导模型生成相应的结果文本。然后，利用编写好的规则或自动化脚本对生成的结果文本进行解析和处理，以提取出模型针对每个问题的预测答案。最后，将预测答案与真实答案进行对比，并借助准确率等定量指标来评估模型的性能。

评估榜单

https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard

基于人类评估

评估方式

这类评测任务通常采用开放式指令或对话形式，并邀请人类评估员对模型生成的回复进行质量评估。评估员的评分方法主要有两种：成对比较法和单一评分法。

成对比较法
在成对比较法中，评估员从两个不同模型生成的答案中选择更优的一个。Chatbot Arena项目搭建了一个众包平台，允许用户与两个匿名的聊天大语言模型进行对话，通过根据成对的比较结果来计算不同模型的Elo评分。

单一评分法
在单一评分法中，评估员则独立地对每个模型的回复进行打分，最后得到每个模型的平均得分。HELM综合评测体系让评估员对摘要和虚假信息任务进行直接打分。

评估榜单

Chatbot Arena https://lmarena.ai/?leaderboard

Holistic Evaluation of Language Models (HELM)

基于模型评估

评估方式

考虑到人工评测的成本高昂且耗时较长，一些研究工作使用强大的闭源大语言模型如ChatGPT来替代人类评估员，对大模型的输出进行自动评分或比较。

AlpacaEval排行榜基于由大语言模型合成的人类需求指令作为评测任务，然后收集待评估大模型的回应，并采用GPT-4等大语言模型作为评测员，将待评估大语言模型的输出与参考输出进行成对比较。此榜单更新较慢。

评估榜单

AlpacaEval Leaderboard
上述三种评测方式有对应的榜单，实际评测过程中可能会将三种方法结合起来使用，以更快的达成评测目的，如FlagEval等平台。

热门推荐

疫情下如何开好一场高效的线上会议？

疫情下如何开好一场高效的线上会议？

职场沟通新姿势：轻松搞定人际关系！

职场沟通新姿势：轻松搞定人际关系！

18年前的今天史蒂夫·乔布斯发布了iPhone和Apple TV

18年前的今天史蒂夫·乔布斯发布了iPhone和Apple TV

十位古代惊艳卓绝的女性，十段传奇故事，惊艳千年

十位古代惊艳卓绝的女性，十段传奇故事，惊艳千年

秋冬护肺，中医智慧

秋冬护肺，中医智慧

眼底出血打什么针最有效

眼底出血打什么针最有效

双十一特惠：如何挑选高性价比的麝香龟？

双十一特惠：如何挑选高性价比的麝香龟？

麝香龟价格暴跌至60元！抄底时机已至？

麝香龟价格暴跌至60元！抄底时机已至？

麝香龟市场现状：价格稳定，是入手好时机

麝香龟市场现状：价格稳定，是入手好时机

地摊三杰：麝香龟价格大跳水！

地摊三杰：麝香龟价格大跳水！

2025年考研英语二终极预测：这些作文主题你不可不知！

2025年考研英语二终极预测：这些作文主题你不可不知！

B族维生素：自然缓解焦虑的有效营养素

B族维生素：自然缓解焦虑的有效营养素

红烧肉：一道令人垂涎三尺的中国美食

红烧肉：一道令人垂涎三尺的中国美食

中国兽医协会推荐：巨头麝香龟的高级饲养技巧

中国兽医协会推荐：巨头麝香龟的高级饲养技巧

打造完美麝香龟生活环境：从环境搭建到日常养护的全方位指南

打造完美麝香龟生活环境：从环境搭建到日常养护的全方位指南

魏氏熏鸡：两百年传承的聊城味道

魏氏熏鸡：两百年传承的聊城味道

糖尿病高血压患者警惕！眼底出血的预防与治疗全攻略

糖尿病高血压患者警惕！眼底出血的预防与治疗全攻略

眼科激光治疗全解析：精准选择，守护光明

眼科激光治疗全解析：精准选择，守护光明

甘蔗新工艺：红糖和赤砂糖的科技之旅

甘蔗新工艺：红糖和赤砂糖的科技之旅

红糖VS赤砂糖：一文读懂它们的区别与使用场景

红糖VS赤砂糖：一文读懂它们的区别与使用场景

当年都劝油改气，如今为什么很少见了？出租车司机道出了“内幕”

当年都劝油改气，如今为什么很少见了？出租车司机道出了“内幕”

头盔泥龟养成记：晒背小技巧分享

头盔泥龟养成记：晒背小技巧分享

头盔龟价格暴跌真相：从700到130元的市场巨变

头盔龟价格暴跌真相：从700到130元的市场巨变

冬季如何正确养护你的头盔泥龟？

冬季如何正确养护你的头盔泥龟？

汽车发动机的奥秘：小排量涡轮增压

汽车发动机的奥秘：小排量涡轮增压

智能手机上的英国“孤独一代”

智能手机上的英国“孤独一代”

火车是如何运作的：通过最常见的苏联蒸汽机车剖面图直观展示

火车是如何运作的：通过最常见的苏联蒸汽机车剖面图直观展示

行驶过程中，蒸汽火车怎么实现无级变速的？

行驶过程中，蒸汽火车怎么实现无级变速的？

蛋龟入保倒计时：价格暴跌真相揭秘

蛋龟入保倒计时：价格暴跌真相揭秘

果核蛋龟价格走势揭秘：涨跌谁主沉浮？

果核蛋龟价格走势揭秘：涨跌谁主沉浮？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号