大模型测评体系的构成
创作时间:
作者:
@小白创作中心
大模型测评体系的构成
引用
1
来源
1.
https://17aitech.com/?p=38434
基准测试
基准测试 | 重点关注 | 领域 | 评估标准 |
|---|---|---|---|
SOCKET [23] | 社会知识 | 特定下游任务 | 社会语言理解能力 |
MME[46] | 多模态大语言模型 | 多模态任务 | 感知与认知能力 |
鴞(Xiezhi) [59] | 综合领域知识 | 通用语言任务 | 多个基准测试的整体性能 |
Choice – 75[75] | 脚本学习 | 特定下游任务 | 大语言模型的整体性能 |
CUAD71 | 法律合同审查 | 特定下游任务 | 法律合同理解能力 |
TRUSTGPT[79] | 伦理 | 特定下游任务 | 毒性、偏差与价值一致性 |
MMLU[70] | 文本模型 | 通用语言任务 | 多任务准确率 |
MATH[72] | 数学问题 | 特定下游任务 | 数学能力 |
APPS [68] | 编码挑战能力 | 特定下游任务 | 代码生成能力 |
CELLO[66]C – Eval [78] | 复杂指令中文评估 | 特定下游任务通用语言任务 | 四项指定评估标准中文语境下的52项考试 |
EmotionBench[76] | 共情能力 | 特定下游任务 | 情绪变化 |
OpenLLM[80] | 聊天机器人 | 通用语言任务 | 排行榜排名 |
DynaBench [94] | 动态评估 | 通用语言任务 | 自然语言推理、问答、情感分析与仇恨言论检测 |
Chatbot Arena [128] | 聊天助手 | 通用语言任务 | 众包和Elo评级系统 |
AlpacaEval [112] | 自动评估 | 通用语言任务 | 指标、稳健性与多样性 |
CMMLU[108] | 中文多任务处理 | 特定下游任务 | 多任务语言理解能力 |
HELM[114] | 整体评估 | 通用语言任务 | 多指标 |
API – Bank [109] | 工具利用 | 特定下游任务 | API调用、检索与规划能力 |
M3KE[122] | 多任务 | 特定下游任务 | 多任务准确率 |
MMBench[126] | 大型视觉 – 语言模型(LVLMs) | 多模态任务 | 视觉 – 语言模型的多方面能力 |
SEED – Bench [107] | 多模态大语言模型 | 多模态任务 | 多模态大语言模型的生成性理解能力 |
UHGEval [116] | 中文大语言模型的幻觉问题 | 特定下游任务 | 形式、指标与粒度 |
ARB[171] | 高级推理能力 | 特定下游任务 | 多领域高级推理能力 |
BIG – bench [182] | 大语言模型的能力与局限 | 通用语言任务 | 模型性能与校准 |
MultiMedQA[177] | 医学问答 | 特定下游任务 | 准确率与人评 |
CVALUES[230] | 安全性与责任性 | 特定下游任务 | 大语言模型的对齐能力 |
LVLM – eHub[231] | 大型视觉 – 语言模型 | 多模态任务 | 大型视觉 – 语言模型的多模态能力 |
ToolBench[191] | 软件工具 | 特定下游任务 | 执行成功率 |
FRESHQA[198] | 动态问答 | 特定下游任务 | 正确性与幻觉问题 |
CMB[211] | 中医综合 | 特定下游任务 | 专家评估与自动评估 |
PandaLM[216] | 指令微调 | 通用语言任务 | 由PandaLM判断的胜率 |
MINT [213] | 多轮交互 | 特定下游任务 | k轮预算成功率SRk |
Dialogue CoT[205] | 深度对话 | 特定下游任务 | 大语言模型的有用性与可接受性 |
BOSS[239] | 自然语言处理中的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
MM – Vet [238] | 复杂多模态任务 | 多模态任务 | 综合视觉 – 语言能力 |
LAMM[235] | 多模态点云 | 多模态任务 | 特定任务指标 |
GLUE – X[234] | 自然语言处理任务的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
KoLA[236] | 知识导向评估 | 通用语言任务 | 自对比指标 |
AGIEval [262] | 以人为中心的基础模型 | 通用语言任务 | 通用指标 |
PromptBench [264] | 对抗性提示抗性 | 通用语言任务 | 对抗稳健性 |
MT – Bench [260] | 多轮对话 | 通用语言任务 | 由GPT – 4判断的胜率 |
M3Exam [250] | 多语言、多模态与多层次 | 特定下游任务 | 特定任务指标 |
GAOKAO – Bench245 | 中国高考考试 | 特定下游任务 | 准确率与得分率 |
SafetyBench [254] | 安全性 | 特定下游任务 | 大语言模型的安全能力 |
LLMEval [252] | 大语言模型评估器 | 通用语言任务 | 准确率、宏F1值和kappa相关系数 |
评估维度
评估维度 | 指标 | 计算公式 | 应用场景示例 |
|---|---|---|---|
准确性 | 精确匹配(EM) | \text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N} | 闭卷问答、代码生成 |
F1 Score | F1 = \frac{2 \times P \times R}{P + R} | 文本分类、实体识别 | |
ROUGE-L | 暂略 | 摘要生成、机器翻译 | |
校准度 | 期望校准误差(ECE) | 暂略 | 医疗诊断、风险评估 |
公平性 | 人口均等差异(DPD) | DPD = P(\hat{y}|Z=1) - P(\hat{y}|Z=0) | 招聘文案生成、信用评估 |
鲁棒性 | 攻击成功率(ASR) | ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)} | 对抗攻击测试、输入扰动测试 |
评测工具
评测工具 | 工具链接 |
|---|---|
lm – evaluation – harness | |
OpenCompasss |
评估方法
关键要素 | 要求说明 |
|---|---|
评估者数量 | 每组≥3人,保证统计显著性 |
评估标准 | 准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等 |
评估者资质 | 领域专家占比≥30%,均需通过评估培训 |
自动评估 vs 人工评估
维度 | 自动评估 | 人工评估 |
|---|---|---|
执行成本 | 低 | 高 |
评估周期 | 分钟级 | 天级 |
可解释性 | 量化结果明确但可解释性差 | 可提供定性反馈 |
适用范围 | 标准化任务(分类、生成等) | 创造性任务(写作、设计等) |
热门推荐
冬季防感冒,这些食物最有效!
世界强化免疫日:运动提升免疫力,告别频繁感冒
冬季流感季,牛奶鸡蛋组合助你增强免疫力
张越直播忆《半边天》:刘小样的22年,一场关于“出走”的对话
人民币贬值风暴下,A股市场的真相与机遇
张夏:这轮调整后,A股可能迎来一波更持久的主升浪行情
斯嘉丽·约翰逊指控OpenAI:AI声音模仿引发的伦理困境
辅酶Q10:万能营养素,你了解多少?
浙江莫干山区气候
浙江6条“私藏”徒步路线让你“徒”个开心
百亿大品种还没起飞就“红了”,仿制+改良药企如何走出“困局”
进口药“消失”之问:进口原研药和国产仿制药的药效到底有无差别?
酸甜辣咸四味合一,鱼香肉丝制作详解
鱼香肉丝制作详解:选材、调味到出锅的完美呈现
春运必备:航空旅行自热米饭携带攻略
谭笑丹:用DNA技术助65个家庭团圆
从6本寻亲笔记到690万点赞,他用抖音帮128个家庭重聚
被拐儿童寻亲后的隐忧:从身份认同到利益纷争
鸡胸肉替代猪肉,菠萝咕咾肉热量减半还美味
《GTA6》多人模式全面评测:Rockstar Games再创辉煌
GTA6多人模式:高级AI NPC将如何改变游戏世界?
学会包容与忍耐,经营长久感情
家长巧用四招,将孩子“缺点”变优点
拖延也能变优势:5种常见性格特质的正向转化
爱情的科学分析
爱情观的理解与认识,六种类型,你属于哪一种?
鞭炮水中爆炸挑战:水桶能撑多久?
宋代重庆三度更名,地理环境是行政调整关键
运动健身时心率过快的五种控制方法
寿命长短,心跳知道!1分钟跳多少次最健康?最新研究……