大模型测评体系的构成

创作时间:

作者:

@小白创作中心

大模型测评体系的构成

引用

来源

https://17aitech.com/?p=38434

基准测试

基准测试	重点关注	领域	评估标准
SOCKET [23]	社会知识	特定下游任务	社会语言理解能力
MME[46]	多模态大语言模型	多模态任务	感知与认知能力
鴞（Xiezhi） [59]	综合领域知识	通用语言任务	多个基准测试的整体性能
Choice – 75[75]	脚本学习	特定下游任务	大语言模型的整体性能
CUAD71	法律合同审查	特定下游任务	法律合同理解能力
TRUSTGPT[79]	伦理	特定下游任务	毒性、偏差与价值一致性
MMLU[70]	文本模型	通用语言任务	多任务准确率
MATH[72]	数学问题	特定下游任务	数学能力
APPS [68]	编码挑战能力	特定下游任务	代码生成能力
CELLO[66]C – Eval [78]	复杂指令中文评估	特定下游任务通用语言任务	四项指定评估标准中文语境下的52项考试
EmotionBench[76]	共情能力	特定下游任务	情绪变化
OpenLLM[80]	聊天机器人	通用语言任务	排行榜排名
DynaBench [94]	动态评估	通用语言任务	自然语言推理、问答、情感分析与仇恨言论检测
Chatbot Arena [128]	聊天助手	通用语言任务	众包和Elo评级系统
AlpacaEval [112]	自动评估	通用语言任务	指标、稳健性与多样性
CMMLU[108]	中文多任务处理	特定下游任务	多任务语言理解能力
HELM[114]	整体评估	通用语言任务	多指标
API – Bank [109]	工具利用	特定下游任务	API调用、检索与规划能力
M3KE[122]	多任务	特定下游任务	多任务准确率
MMBench[126]	大型视觉 – 语言模型（LVLMs）	多模态任务	视觉 – 语言模型的多方面能力
SEED – Bench [107]	多模态大语言模型	多模态任务	多模态大语言模型的生成性理解能力
UHGEval [116]	中文大语言模型的幻觉问题	特定下游任务	形式、指标与粒度
ARB[171]	高级推理能力	特定下游任务	多领域高级推理能力
BIG – bench [182]	大语言模型的能力与局限	通用语言任务	模型性能与校准
MultiMedQA[177]	医学问答	特定下游任务	准确率与人评
CVALUES[230]	安全性与责任性	特定下游任务	大语言模型的对齐能力
LVLM – eHub[231]	大型视觉 – 语言模型	多模态任务	大型视觉 – 语言模型的多模态能力
ToolBench[191]	软件工具	特定下游任务	执行成功率
FRESHQA[198]	动态问答	特定下游任务	正确性与幻觉问题
CMB[211]	中医综合	特定下游任务	专家评估与自动评估
PandaLM[216]	指令微调	通用语言任务	由PandaLM判断的胜率
MINT [213]	多轮交互	特定下游任务	k轮预算成功率SRk
Dialogue CoT[205]	深度对话	特定下游任务	大语言模型的有用性与可接受性
BOSS[239]	自然语言处理中的分布外稳健性	通用语言任务	分布外稳健性
MM – Vet [238]	复杂多模态任务	多模态任务	综合视觉 – 语言能力
LAMM[235]	多模态点云	多模态任务	特定任务指标
GLUE – X[234]	自然语言处理任务的分布外稳健性	通用语言任务	分布外稳健性
KoLA[236]	知识导向评估	通用语言任务	自对比指标
AGIEval [262]	以人为中心的基础模型	通用语言任务	通用指标
PromptBench [264]	对抗性提示抗性	通用语言任务	对抗稳健性
MT – Bench [260]	多轮对话	通用语言任务	由GPT – 4判断的胜率
M3Exam [250]	多语言、多模态与多层次	特定下游任务	特定任务指标
GAOKAO – Bench245	中国高考考试	特定下游任务	准确率与得分率
SafetyBench [254]	安全性	特定下游任务	大语言模型的安全能力
LLMEval [252]	大语言模型评估器	通用语言任务	准确率、宏F1值和kappa相关系数

评估维度

评估维度	指标	计算公式	应用场景示例
准确性	精确匹配(EM)	\text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N}	闭卷问答、代码生成
	F1 Score	F1 = \frac{2 \times P \times R}{P + R}	文本分类、实体识别
	ROUGE-L	暂略	摘要生成、机器翻译
校准度	期望校准误差(ECE)	暂略	医疗诊断、风险评估
公平性	人口均等差异(DPD)	DPD = P(\hat{y}\|Z=1) - P(\hat{y}\|Z=0)	招聘文案生成、信用评估
鲁棒性	攻击成功率(ASR)	ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)}	对抗攻击测试、输入扰动测试

评测工具

评测工具	工具链接
lm – evaluation – harness	https://github.com/EleutherAI/lm-evaluation-harness
OpenCompasss	https://opencompass.org.cn/

评估方法

关键要素	要求说明
评估者数量	每组≥3人，保证统计显著性
评估标准	准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等
评估者资质	领域专家占比≥30%，均需通过评估培训

自动评估 vs 人工评估

维度	自动评估	人工评估
执行成本	低	高
评估周期	分钟级	天级
可解释性	量化结果明确但可解释性差	可提供定性反馈
适用范围	标准化任务（分类、生成等）	创造性任务（写作、设计等）