大模型测评体系的构成
创作时间:
作者:
@小白创作中心
大模型测评体系的构成
引用
1
来源
1.
https://17aitech.com/?p=38434
基准测试
基准测试 | 重点关注 | 领域 | 评估标准 |
|---|---|---|---|
SOCKET [23] | 社会知识 | 特定下游任务 | 社会语言理解能力 |
MME[46] | 多模态大语言模型 | 多模态任务 | 感知与认知能力 |
鴞(Xiezhi) [59] | 综合领域知识 | 通用语言任务 | 多个基准测试的整体性能 |
Choice – 75[75] | 脚本学习 | 特定下游任务 | 大语言模型的整体性能 |
CUAD71 | 法律合同审查 | 特定下游任务 | 法律合同理解能力 |
TRUSTGPT[79] | 伦理 | 特定下游任务 | 毒性、偏差与价值一致性 |
MMLU[70] | 文本模型 | 通用语言任务 | 多任务准确率 |
MATH[72] | 数学问题 | 特定下游任务 | 数学能力 |
APPS [68] | 编码挑战能力 | 特定下游任务 | 代码生成能力 |
CELLO[66]C – Eval [78] | 复杂指令中文评估 | 特定下游任务通用语言任务 | 四项指定评估标准中文语境下的52项考试 |
EmotionBench[76] | 共情能力 | 特定下游任务 | 情绪变化 |
OpenLLM[80] | 聊天机器人 | 通用语言任务 | 排行榜排名 |
DynaBench [94] | 动态评估 | 通用语言任务 | 自然语言推理、问答、情感分析与仇恨言论检测 |
Chatbot Arena [128] | 聊天助手 | 通用语言任务 | 众包和Elo评级系统 |
AlpacaEval [112] | 自动评估 | 通用语言任务 | 指标、稳健性与多样性 |
CMMLU[108] | 中文多任务处理 | 特定下游任务 | 多任务语言理解能力 |
HELM[114] | 整体评估 | 通用语言任务 | 多指标 |
API – Bank [109] | 工具利用 | 特定下游任务 | API调用、检索与规划能力 |
M3KE[122] | 多任务 | 特定下游任务 | 多任务准确率 |
MMBench[126] | 大型视觉 – 语言模型(LVLMs) | 多模态任务 | 视觉 – 语言模型的多方面能力 |
SEED – Bench [107] | 多模态大语言模型 | 多模态任务 | 多模态大语言模型的生成性理解能力 |
UHGEval [116] | 中文大语言模型的幻觉问题 | 特定下游任务 | 形式、指标与粒度 |
ARB[171] | 高级推理能力 | 特定下游任务 | 多领域高级推理能力 |
BIG – bench [182] | 大语言模型的能力与局限 | 通用语言任务 | 模型性能与校准 |
MultiMedQA[177] | 医学问答 | 特定下游任务 | 准确率与人评 |
CVALUES[230] | 安全性与责任性 | 特定下游任务 | 大语言模型的对齐能力 |
LVLM – eHub[231] | 大型视觉 – 语言模型 | 多模态任务 | 大型视觉 – 语言模型的多模态能力 |
ToolBench[191] | 软件工具 | 特定下游任务 | 执行成功率 |
FRESHQA[198] | 动态问答 | 特定下游任务 | 正确性与幻觉问题 |
CMB[211] | 中医综合 | 特定下游任务 | 专家评估与自动评估 |
PandaLM[216] | 指令微调 | 通用语言任务 | 由PandaLM判断的胜率 |
MINT [213] | 多轮交互 | 特定下游任务 | k轮预算成功率SRk |
Dialogue CoT[205] | 深度对话 | 特定下游任务 | 大语言模型的有用性与可接受性 |
BOSS[239] | 自然语言处理中的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
MM – Vet [238] | 复杂多模态任务 | 多模态任务 | 综合视觉 – 语言能力 |
LAMM[235] | 多模态点云 | 多模态任务 | 特定任务指标 |
GLUE – X[234] | 自然语言处理任务的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
KoLA[236] | 知识导向评估 | 通用语言任务 | 自对比指标 |
AGIEval [262] | 以人为中心的基础模型 | 通用语言任务 | 通用指标 |
PromptBench [264] | 对抗性提示抗性 | 通用语言任务 | 对抗稳健性 |
MT – Bench [260] | 多轮对话 | 通用语言任务 | 由GPT – 4判断的胜率 |
M3Exam [250] | 多语言、多模态与多层次 | 特定下游任务 | 特定任务指标 |
GAOKAO – Bench245 | 中国高考考试 | 特定下游任务 | 准确率与得分率 |
SafetyBench [254] | 安全性 | 特定下游任务 | 大语言模型的安全能力 |
LLMEval [252] | 大语言模型评估器 | 通用语言任务 | 准确率、宏F1值和kappa相关系数 |
评估维度
评估维度 | 指标 | 计算公式 | 应用场景示例 |
|---|---|---|---|
准确性 | 精确匹配(EM) | \text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N} | 闭卷问答、代码生成 |
F1 Score | F1 = \frac{2 \times P \times R}{P + R} | 文本分类、实体识别 | |
ROUGE-L | 暂略 | 摘要生成、机器翻译 | |
校准度 | 期望校准误差(ECE) | 暂略 | 医疗诊断、风险评估 |
公平性 | 人口均等差异(DPD) | DPD = P(\hat{y}|Z=1) - P(\hat{y}|Z=0) | 招聘文案生成、信用评估 |
鲁棒性 | 攻击成功率(ASR) | ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)} | 对抗攻击测试、输入扰动测试 |
评测工具
评测工具 | 工具链接 |
|---|---|
lm – evaluation – harness | |
OpenCompasss |
评估方法
关键要素 | 要求说明 |
|---|---|
评估者数量 | 每组≥3人,保证统计显著性 |
评估标准 | 准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等 |
评估者资质 | 领域专家占比≥30%,均需通过评估培训 |
自动评估 vs 人工评估
维度 | 自动评估 | 人工评估 |
|---|---|---|
执行成本 | 低 | 高 |
评估周期 | 分钟级 | 天级 |
可解释性 | 量化结果明确但可解释性差 | 可提供定性反馈 |
适用范围 | 标准化任务(分类、生成等) | 创造性任务(写作、设计等) |
热门推荐
职场应酬后,这样服用布洛芬最安全!
春游南昌:滕王阁赏烟花,武功山看草甸,两大景区迎春打卡攻略
南昌的春天,处处皆是诗画
南昌春天温暖湿润的秘密:亚热带季风气候的奇妙影响
头孢+酒=危险!医生紧急提醒
饮酒后服用布洛芬,当心这些风险!
饮酒后服药有风险,这些药物千万别乱用!
四川达州六大特色美食,看看你吃过几种,哪一种最让你流口水?
更年期要吃什麼保健食品?6種更年期保健食品成分
大豆异黄酮功效、最佳剂量和副作用揭秘,更年期女性必看!
香江忆旧录 ||为什么我们怀念那些年的香港贺岁片
神医扁鹊是怎样炼成的
鲜蘑菇冷冻保存方法
铭记那些改变中国命运的外籍英雄:拉贝、陈纳德、马海德
双十一囤货指南:Q/亅SH0029S标准面粉选购秘籍
中国古代年龄称谓,涵盖了一生的智慧
当心!“俄罗斯老奶粉”惊现69.9元假货,选购需谨慎
身体发麻竟是心理问题?专家揭秘
秋冬颈椎病高发,如何正确就诊?
警惕!手麻可能是腕管综合征
文化地标不断涌现!惠州:国家历史文化名城焕发新魅力
冬日苏州三大园林:腊梅、插花与夜色中的园林之美
探秘虎丘山:苏州新晋打卡胜地
腹部肥胖竟会增加抑郁风险!
告别大肚腩!最新科研成果助力科学减肥
科学减脂:告别大肚腩!
警惕!虚拟货币诈骗新套路揭秘
《擒诈》上线:揭秘最新反诈政策
揭秘AI反诈黑科技:乔通团队如何用创新技术守护网络安全
走出诈骗阴影:从自我接纳到重获新生