大模型测评体系的构成
创作时间:
作者:
@小白创作中心
大模型测评体系的构成
引用
1
来源
1.
https://17aitech.com/?p=38434
基准测试
基准测试 | 重点关注 | 领域 | 评估标准 |
|---|---|---|---|
SOCKET [23] | 社会知识 | 特定下游任务 | 社会语言理解能力 |
MME[46] | 多模态大语言模型 | 多模态任务 | 感知与认知能力 |
鴞(Xiezhi) [59] | 综合领域知识 | 通用语言任务 | 多个基准测试的整体性能 |
Choice – 75[75] | 脚本学习 | 特定下游任务 | 大语言模型的整体性能 |
CUAD71 | 法律合同审查 | 特定下游任务 | 法律合同理解能力 |
TRUSTGPT[79] | 伦理 | 特定下游任务 | 毒性、偏差与价值一致性 |
MMLU[70] | 文本模型 | 通用语言任务 | 多任务准确率 |
MATH[72] | 数学问题 | 特定下游任务 | 数学能力 |
APPS [68] | 编码挑战能力 | 特定下游任务 | 代码生成能力 |
CELLO[66]C – Eval [78] | 复杂指令中文评估 | 特定下游任务通用语言任务 | 四项指定评估标准中文语境下的52项考试 |
EmotionBench[76] | 共情能力 | 特定下游任务 | 情绪变化 |
OpenLLM[80] | 聊天机器人 | 通用语言任务 | 排行榜排名 |
DynaBench [94] | 动态评估 | 通用语言任务 | 自然语言推理、问答、情感分析与仇恨言论检测 |
Chatbot Arena [128] | 聊天助手 | 通用语言任务 | 众包和Elo评级系统 |
AlpacaEval [112] | 自动评估 | 通用语言任务 | 指标、稳健性与多样性 |
CMMLU[108] | 中文多任务处理 | 特定下游任务 | 多任务语言理解能力 |
HELM[114] | 整体评估 | 通用语言任务 | 多指标 |
API – Bank [109] | 工具利用 | 特定下游任务 | API调用、检索与规划能力 |
M3KE[122] | 多任务 | 特定下游任务 | 多任务准确率 |
MMBench[126] | 大型视觉 – 语言模型(LVLMs) | 多模态任务 | 视觉 – 语言模型的多方面能力 |
SEED – Bench [107] | 多模态大语言模型 | 多模态任务 | 多模态大语言模型的生成性理解能力 |
UHGEval [116] | 中文大语言模型的幻觉问题 | 特定下游任务 | 形式、指标与粒度 |
ARB[171] | 高级推理能力 | 特定下游任务 | 多领域高级推理能力 |
BIG – bench [182] | 大语言模型的能力与局限 | 通用语言任务 | 模型性能与校准 |
MultiMedQA[177] | 医学问答 | 特定下游任务 | 准确率与人评 |
CVALUES[230] | 安全性与责任性 | 特定下游任务 | 大语言模型的对齐能力 |
LVLM – eHub[231] | 大型视觉 – 语言模型 | 多模态任务 | 大型视觉 – 语言模型的多模态能力 |
ToolBench[191] | 软件工具 | 特定下游任务 | 执行成功率 |
FRESHQA[198] | 动态问答 | 特定下游任务 | 正确性与幻觉问题 |
CMB[211] | 中医综合 | 特定下游任务 | 专家评估与自动评估 |
PandaLM[216] | 指令微调 | 通用语言任务 | 由PandaLM判断的胜率 |
MINT [213] | 多轮交互 | 特定下游任务 | k轮预算成功率SRk |
Dialogue CoT[205] | 深度对话 | 特定下游任务 | 大语言模型的有用性与可接受性 |
BOSS[239] | 自然语言处理中的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
MM – Vet [238] | 复杂多模态任务 | 多模态任务 | 综合视觉 – 语言能力 |
LAMM[235] | 多模态点云 | 多模态任务 | 特定任务指标 |
GLUE – X[234] | 自然语言处理任务的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
KoLA[236] | 知识导向评估 | 通用语言任务 | 自对比指标 |
AGIEval [262] | 以人为中心的基础模型 | 通用语言任务 | 通用指标 |
PromptBench [264] | 对抗性提示抗性 | 通用语言任务 | 对抗稳健性 |
MT – Bench [260] | 多轮对话 | 通用语言任务 | 由GPT – 4判断的胜率 |
M3Exam [250] | 多语言、多模态与多层次 | 特定下游任务 | 特定任务指标 |
GAOKAO – Bench245 | 中国高考考试 | 特定下游任务 | 准确率与得分率 |
SafetyBench [254] | 安全性 | 特定下游任务 | 大语言模型的安全能力 |
LLMEval [252] | 大语言模型评估器 | 通用语言任务 | 准确率、宏F1值和kappa相关系数 |
评估维度
评估维度 | 指标 | 计算公式 | 应用场景示例 |
|---|---|---|---|
准确性 | 精确匹配(EM) | \text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N} | 闭卷问答、代码生成 |
F1 Score | F1 = \frac{2 \times P \times R}{P + R} | 文本分类、实体识别 | |
ROUGE-L | 暂略 | 摘要生成、机器翻译 | |
校准度 | 期望校准误差(ECE) | 暂略 | 医疗诊断、风险评估 |
公平性 | 人口均等差异(DPD) | DPD = P(\hat{y}|Z=1) - P(\hat{y}|Z=0) | 招聘文案生成、信用评估 |
鲁棒性 | 攻击成功率(ASR) | ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)} | 对抗攻击测试、输入扰动测试 |
评测工具
评测工具 | 工具链接 |
|---|---|
lm – evaluation – harness | |
OpenCompasss |
评估方法
关键要素 | 要求说明 |
|---|---|
评估者数量 | 每组≥3人,保证统计显著性 |
评估标准 | 准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等 |
评估者资质 | 领域专家占比≥30%,均需通过评估培训 |
自动评估 vs 人工评估
维度 | 自动评估 | 人工评估 |
|---|---|---|
执行成本 | 低 | 高 |
评估周期 | 分钟级 | 天级 |
可解释性 | 量化结果明确但可解释性差 | 可提供定性反馈 |
适用范围 | 标准化任务(分类、生成等) | 创造性任务(写作、设计等) |
热门推荐
珊瑚礁生态系统:一个复杂生命网络的典范
高潜力股如何抵御经济寒冬?
2024年职工社保缴费多少?附各地缴费比例、缴费金额
参加居民养老保险,按每年5000元缴费缴纳15年,每月领多少养老金
自己交社保交哪个档次好啊?附具体演算过程!
揭秘同治帝时期的宫廷风云
揭秘同治帝与慈禧太后的权力博弈
日本三大悬案之一,毒可乐随机连环杀人案,42年后凶手依然未找到
未来坦克发展方向:应对现代战场挑战的策略
乌克兰“艾布拉姆斯”车长评论:美国M1A1坦克的主要优势和缺点
医说一 | 探索高血糖饮食之路 每一口都是控糖关键
童年阴影的10部国产动画片,全看过的都是狠人
诺贝尔奖评选标准全解析:从物理学突破到文学价值
老福洲×三坊七巷:福州美食探秘
醉红枣制作方法大集锦
秋季养生必备:醉枣的制作方法与功效
长治西岭村:40余处明清古建里的“八古”之旅
西岭村:古建新生的乡村振兴样本
王宝强变身“阿鬼”:《唐探1900》里的突破与挑战
带状疱疹最新疗法揭秘:阿昔洛韦 vs 泛昔洛韦
带状疱疹来袭,教你情绪管理不崩溃
你的免疫系统真的了解带状疱疹吗?
凤眼莲:水质净化的双刃剑
水草:鱼缸里的绿色守护神
迷你矮珍珠:打造你的绿色鱼缸
水葫芦、睡莲、石菖蒲:谁才是最强水质净化器?
牛毛毡和蜈蚣草,谁才是鱼缸水质救星?
圆明园探秘:咸丰帝的皇家园林传奇
冬季冰箱结霜怎么办?实用解决方案帮你轻松应对这一常见困扰
冰柜结霜的秘密,你真的了解吗?