问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型测评体系的构成

创作时间:
作者:
@小白创作中心

大模型测评体系的构成

引用
1
来源
1.
https://17aitech.com/?p=38434

基准测试

基准测试
重点关注
领域
评估标准
SOCKET [23]
社会知识
特定下游任务
社会语言理解能力
MME[46]
多模态大语言模型
多模态任务
感知与认知能力
鴞(Xiezhi) [59]
综合领域知识
通用语言任务
多个基准测试的整体性能
Choice – 75[75]
脚本学习
特定下游任务
大语言模型的整体性能
CUAD71
法律合同审查
特定下游任务
法律合同理解能力
TRUSTGPT[79]
伦理
特定下游任务
毒性、偏差与价值一致性
MMLU[70]
文本模型
通用语言任务
多任务准确率
MATH[72]
数学问题
特定下游任务
数学能力
APPS [68]
编码挑战能力
特定下游任务
代码生成能力
CELLO[66]C – Eval [78]
复杂指令中文评估
特定下游任务通用语言任务
四项指定评估标准中文语境下的52项考试
EmotionBench[76]
共情能力
特定下游任务
情绪变化
OpenLLM[80]
聊天机器人
通用语言任务
排行榜排名
DynaBench [94]
动态评估
通用语言任务
自然语言推理、问答、情感分析与仇恨言论检测
Chatbot Arena [128]
聊天助手
通用语言任务
众包和Elo评级系统
AlpacaEval [112]
自动评估
通用语言任务
指标、稳健性与多样性
CMMLU[108]
中文多任务处理
特定下游任务
多任务语言理解能力
HELM[114]
整体评估
通用语言任务
多指标
API – Bank [109]
工具利用
特定下游任务
API调用、检索与规划能力
M3KE[122]
多任务
特定下游任务
多任务准确率
MMBench[126]
大型视觉 – 语言模型(LVLMs)
多模态任务
视觉 – 语言模型的多方面能力
SEED – Bench [107]
多模态大语言模型
多模态任务
多模态大语言模型的生成性理解能力
UHGEval [116]
中文大语言模型的幻觉问题
特定下游任务
形式、指标与粒度
ARB[171]
高级推理能力
特定下游任务
多领域高级推理能力
BIG – bench [182]
大语言模型的能力与局限
通用语言任务
模型性能与校准
MultiMedQA[177]
医学问答
特定下游任务
准确率与人评
CVALUES[230]
安全性与责任性
特定下游任务
大语言模型的对齐能力
LVLM – eHub[231]
大型视觉 – 语言模型
多模态任务
大型视觉 – 语言模型的多模态能力
ToolBench[191]
软件工具
特定下游任务
执行成功率
FRESHQA[198]
动态问答
特定下游任务
正确性与幻觉问题
CMB[211]
中医综合
特定下游任务
专家评估与自动评估
PandaLM[216]
指令微调
通用语言任务
由PandaLM判断的胜率
MINT [213]
多轮交互
特定下游任务
k轮预算成功率SRk
Dialogue CoT[205]
深度对话
特定下游任务
大语言模型的有用性与可接受性
BOSS[239]
自然语言处理中的分布外稳健性
通用语言任务
分布外稳健性
MM – Vet [238]
复杂多模态任务
多模态任务
综合视觉 – 语言能力
LAMM[235]
多模态点云
多模态任务
特定任务指标
GLUE – X[234]
自然语言处理任务的分布外稳健性
通用语言任务
分布外稳健性
KoLA[236]
知识导向评估
通用语言任务
自对比指标
AGIEval [262]
以人为中心的基础模型
通用语言任务
通用指标
PromptBench [264]
对抗性提示抗性
通用语言任务
对抗稳健性
MT – Bench [260]
多轮对话
通用语言任务
由GPT – 4判断的胜率
M3Exam [250]
多语言、多模态与多层次
特定下游任务
特定任务指标
GAOKAO – Bench245
中国高考考试
特定下游任务
准确率与得分率
SafetyBench [254]
安全性
特定下游任务
大语言模型的安全能力
LLMEval [252]
大语言模型评估器
通用语言任务
准确率、宏F1值和kappa相关系数

评估维度

评估维度
指标
计算公式
应用场景示例
准确性
精确匹配(EM)
\text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N}
闭卷问答、代码生成
F1 Score
F1 = \frac{2 \times P \times R}{P + R}
文本分类、实体识别
ROUGE-L
暂略
摘要生成、机器翻译
校准度
期望校准误差(ECE)
暂略
医疗诊断、风险评估
公平性
人口均等差异(DPD)
DPD = P(\hat{y}|Z=1) - P(\hat{y}|Z=0)
招聘文案生成、信用评估
鲁棒性
攻击成功率(ASR)
ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)}
对抗攻击测试、输入扰动测试

评测工具

评测工具
工具链接
lm – evaluation – harness
OpenCompasss

评估方法

关键要素
要求说明
评估者数量
每组≥3人,保证统计显著性
评估标准
准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等
评估者资质
领域专家占比≥30%,均需通过评估培训

自动评估 vs 人工评估

维度
自动评估
人工评估
执行成本
评估周期
分钟级
天级
可解释性
量化结果明确但可解释性差
可提供定性反馈
适用范围
标准化任务(分类、生成等)
创造性任务(写作、设计等)
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号