大模型测评体系的构成
创作时间:
作者:
@小白创作中心
大模型测评体系的构成
引用
1
来源
1.
https://17aitech.com/?p=38434
基准测试
基准测试 | 重点关注 | 领域 | 评估标准 |
---|---|---|---|
SOCKET [23] | 社会知识 | 特定下游任务 | 社会语言理解能力 |
MME[46] | 多模态大语言模型 | 多模态任务 | 感知与认知能力 |
鴞(Xiezhi) [59] | 综合领域知识 | 通用语言任务 | 多个基准测试的整体性能 |
Choice – 75[75] | 脚本学习 | 特定下游任务 | 大语言模型的整体性能 |
CUAD71 | 法律合同审查 | 特定下游任务 | 法律合同理解能力 |
TRUSTGPT[79] | 伦理 | 特定下游任务 | 毒性、偏差与价值一致性 |
MMLU[70] | 文本模型 | 通用语言任务 | 多任务准确率 |
MATH[72] | 数学问题 | 特定下游任务 | 数学能力 |
APPS [68] | 编码挑战能力 | 特定下游任务 | 代码生成能力 |
CELLO[66]C – Eval [78] | 复杂指令中文评估 | 特定下游任务通用语言任务 | 四项指定评估标准中文语境下的52项考试 |
EmotionBench[76] | 共情能力 | 特定下游任务 | 情绪变化 |
OpenLLM[80] | 聊天机器人 | 通用语言任务 | 排行榜排名 |
DynaBench [94] | 动态评估 | 通用语言任务 | 自然语言推理、问答、情感分析与仇恨言论检测 |
Chatbot Arena [128] | 聊天助手 | 通用语言任务 | 众包和Elo评级系统 |
AlpacaEval [112] | 自动评估 | 通用语言任务 | 指标、稳健性与多样性 |
CMMLU[108] | 中文多任务处理 | 特定下游任务 | 多任务语言理解能力 |
HELM[114] | 整体评估 | 通用语言任务 | 多指标 |
API – Bank [109] | 工具利用 | 特定下游任务 | API调用、检索与规划能力 |
M3KE[122] | 多任务 | 特定下游任务 | 多任务准确率 |
MMBench[126] | 大型视觉 – 语言模型(LVLMs) | 多模态任务 | 视觉 – 语言模型的多方面能力 |
SEED – Bench [107] | 多模态大语言模型 | 多模态任务 | 多模态大语言模型的生成性理解能力 |
UHGEval [116] | 中文大语言模型的幻觉问题 | 特定下游任务 | 形式、指标与粒度 |
ARB[171] | 高级推理能力 | 特定下游任务 | 多领域高级推理能力 |
BIG – bench [182] | 大语言模型的能力与局限 | 通用语言任务 | 模型性能与校准 |
MultiMedQA[177] | 医学问答 | 特定下游任务 | 准确率与人评 |
CVALUES[230] | 安全性与责任性 | 特定下游任务 | 大语言模型的对齐能力 |
LVLM – eHub[231] | 大型视觉 – 语言模型 | 多模态任务 | 大型视觉 – 语言模型的多模态能力 |
ToolBench[191] | 软件工具 | 特定下游任务 | 执行成功率 |
FRESHQA[198] | 动态问答 | 特定下游任务 | 正确性与幻觉问题 |
CMB[211] | 中医综合 | 特定下游任务 | 专家评估与自动评估 |
PandaLM[216] | 指令微调 | 通用语言任务 | 由PandaLM判断的胜率 |
MINT [213] | 多轮交互 | 特定下游任务 | k轮预算成功率SRk |
Dialogue CoT[205] | 深度对话 | 特定下游任务 | 大语言模型的有用性与可接受性 |
BOSS[239] | 自然语言处理中的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
MM – Vet [238] | 复杂多模态任务 | 多模态任务 | 综合视觉 – 语言能力 |
LAMM[235] | 多模态点云 | 多模态任务 | 特定任务指标 |
GLUE – X[234] | 自然语言处理任务的分布外稳健性 | 通用语言任务 | 分布外稳健性 |
KoLA[236] | 知识导向评估 | 通用语言任务 | 自对比指标 |
AGIEval [262] | 以人为中心的基础模型 | 通用语言任务 | 通用指标 |
PromptBench [264] | 对抗性提示抗性 | 通用语言任务 | 对抗稳健性 |
MT – Bench [260] | 多轮对话 | 通用语言任务 | 由GPT – 4判断的胜率 |
M3Exam [250] | 多语言、多模态与多层次 | 特定下游任务 | 特定任务指标 |
GAOKAO – Bench245 | 中国高考考试 | 特定下游任务 | 准确率与得分率 |
SafetyBench [254] | 安全性 | 特定下游任务 | 大语言模型的安全能力 |
LLMEval [252] | 大语言模型评估器 | 通用语言任务 | 准确率、宏F1值和kappa相关系数 |
评估维度
评估维度 | 指标 | 计算公式 | 应用场景示例 |
---|---|---|---|
准确性 | 精确匹配(EM) | \text{EM} = \frac{\sum \mathbb{I}(pred=ref)}{N} | 闭卷问答、代码生成 |
F1 Score | F1 = \frac{2 \times P \times R}{P + R} | 文本分类、实体识别 | |
ROUGE-L | 暂略 | 摘要生成、机器翻译 | |
校准度 | 期望校准误差(ECE) | 暂略 | 医疗诊断、风险评估 |
公平性 | 人口均等差异(DPD) | DPD = P(\hat{y}|Z=1) - P(\hat{y}|Z=0) | 招聘文案生成、信用评估 |
鲁棒性 | 攻击成功率(ASR) | ASR = \frac{\sum \mathbb{I}(f(A(x)) \neq y)}{\sum \mathbb{I}(f(x)=y)} | 对抗攻击测试、输入扰动测试 |
评测工具
评测工具 | 工具链接 |
---|---|
lm – evaluation – harness | |
OpenCompasss |
评估方法
关键要素 | 要求说明 |
---|---|
评估者数量 | 每组≥3人,保证统计显著性 |
评估标准 | 准确性、相关性、流畅性、安全性、透明度、安全性、人类一致性等 |
评估者资质 | 领域专家占比≥30%,均需通过评估培训 |
自动评估 vs 人工评估
维度 | 自动评估 | 人工评估 |
---|---|---|
执行成本 | 低 | 高 |
评估周期 | 分钟级 | 天级 |
可解释性 | 量化结果明确但可解释性差 | 可提供定性反馈 |
适用范围 | 标准化任务(分类、生成等) | 创造性任务(写作、设计等) |
热门推荐
新年拍照姿势大揭秘:对联、红包齐上阵!
新车磨合期一般是多少公里?
什么原因会让股票涨跌:影响股票价格涨跌的因素
油车怎样进行有效磨合?磨合过程中需注意什么?
为什么新车磨合期油耗大的离谱?想要降低油耗,请记住这4点
《侍战队真剑者》中的腑破十脏为何如此经典?
浅谈中式园林设计风格及要点
阿克苏到和田:穿越塔克拉玛干的自驾探险
和田VS阿克苏:谁更热?
阿克苏到和田自驾游:胡杨林和沙漠公路的绝美之旅
微信撤回功能升级:安全漏洞与防范指南
微信撤回功能升级:3小时撤回文件,这些细节值得关注
微信撤回消息:社恐救星还是社交绊脚石?
微信撤回消息背后的黑科技揭秘
金融机构外部董事违法风险防控指南
董事违规致股价暴跌,普利制药、恒润股份成最新案例
探索诗词创作技巧与模式:从古典到现代的全面指南
2024年退休,认定视同缴费年限满足哪些条件?提前多久提交材料?
北京企退职工基本养老金计算指南及案例详解
先睹为快!这些小说是影视改编热门
情深似海,念你如初:一场未了的情缘
念念不忘的麻婆豆腐!家常做法来了
年轻人婚宴“以茶代酒”,霸王茶姬和喜茶们收获意外之喜
超适合的自驾路线!德阳出发3小时,赏雪山森林草甸,Live直出的顶级美景~
如何搞定S7-1200 PID Compact V2 组态?
中性底介子与μ介子:粒子物理学的双星闪耀
《从这里寻找当地美食,宏村风景区介绍,入冬4日游攻略》
服装色彩心理学:如何用颜色塑造完美形象
微信消息撤回竟有这些安全隐患!
云南风物志 | 诗史共话大观楼