问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型性能评估：从目标定义到结果可视化

创作时间:

作者:

@小白创作中心

大模型性能评估：从目标定义到结果可视化

引用

CSDN

1.

https://blog.csdn.net/o0402/article/details/146564087

随着大模型技术的快速发展，如何有效地评估模型性能成为了一个重要课题。本文从技术角度出发，系统地介绍了评估大模型性能的八个步骤，包括定义比较目标、选择基准、设置测试环境、使用评估框架、实现自定义测试、分析结果、记录可视化以及迭代优化。

第一步：定义你的比较目标

在深入评估之前，需要明确以下几个关键问题：

哪些特定功能对您的应用程序最重要？
您是否优先考虑准确性、速度、成本或专业知识？
你需要定量指标，定性评估，还是两者兼而有之？

建议：创建一个简单的评分规则，并加权重要性。

第二步：选择合适的基准

不同的基准测试衡量LLM不同的能力：

通用能力

框架	地址
MMLU	https://huggingface.co/datasets/cais/mmlu
HELM	https://github.com/stanford-crfm/helm
BIG-Bench	https://github.com/google/BIG-bench
Winogrande	https://huggingface.co/datasets/allenai/ai2_arc

推理与问题解决

框架	地址
GSM8K	https://huggingface.co/datasets/openai/gsm8k
MATH	https://github.com/hendrycks/math
LogiQA	https://huggingface.co/datasets/lucasmccabe/logiqa
ai2 arc	https://huggingface.co/datasets/allenai/ai2_arc
HellaSwag	https://huggingface.co/datasets/Rowan/hellaswag

编码和技术能力

框架	地址
HumanEval	https://paperswithcode.com/sota/code-generation-on-humaneval
SWE-Bench	https://www.swebench.com/
APSS	https://arxiv.org/abs/2105.09938
MBPP	https://github.com/google-research/google-research/tree/master/mbpp
DS-1000	https://ds1000-code-gen.github.io/
BigCodeBench	https://github.com/bigcode-project/bigcodebench

真实性与事实性

框架	地址
TruthfulQA	https://github.com/sylinrl/TruthfulQA
FActScore	https://github.com/shmsw25/FActScore
DeepEval	https://github.com/confident-ai/deepeval
Opik	https://github.com/comet-ml/opik
RAGAs	https://github.com/explodinggradients/ragas
Deepchecks	https://github.com/deepchecks/deepchecks
Phoenix	https://github.com/Arize-ai/phoenix
Evalverse	https://github.com/evalplus/evalplus

指令遵循

框架	地址
Alpaca Eval	https://github.com/tatsu-lab/alpaca_eval
MT-Bench	https://github.com/mtbench101/mt-bench-101

安全性评价

框架	地址
Anthropic’s Red Teaming dataset	https://arxiv.org/abs/2209.07858
SafetyBench	https://github.com/thu-coai/SafetyBench

建议：专注于与您的特定用例相一致的基准测试，而不是试图测试所有内容。

第三步：设置测试环境

确保在一致的测试条件下进行公平比较：

尽可能使用相同的硬件进行所有测试
控制温度（temperature）、最大令牌（max tokens）和其他生成参数
记录API版本或部署配置
标准化提示格式和说明
跨模型使用相同的评估标准

建议：创建一个配置文件，记录所有测试参数的重现性。

第五步：使用评估框架

有几个框架可以帮助您自动化和标准化评估过程：

框架	最适合	安装
LangChain Evaluation	工作流测试	`pip install langchain-eval`
EleutherAI LM Evaluation Harness	学术基准	`pip install lm-eval`
DeepEval	单元测试	`pip install deepeval`
Promptfoo	即时比较	`npm install -g promptfoo npm install -gnpm`
TruLens	反馈分析	`pip install trulens-eval`

第六步：实现自定义评估测试

根据您的需求量身定制测试：

与您所在行业相关的特定领域知识测试
来自预期用例的真实提示
突破模型功能边界的边缘案例
跨模型具有相同输入的A/B比较
与代表性用户进行用户体验测试

建议：包括“预期”场景和挑战模型的“压力测试”场景。

第七步：分析结果

将原始数据转化为可操作的见解：

跨基准比较原始分数
将结果标准化，以考虑不同的尺度
以百分比计算业绩差距
确定优势和劣势的模式
考虑差异的统计显著性
绘制不同功能域的性能图

第八步：记录和可视化结果

为您的结果创建清晰、可扫描的文档：

第八步：不断的迭代

判断能不能上线？
不能上线？申请经费
继续微调
再次评估
回到1

热门推荐

耳鼻喉科专家教你科学洁耳法

耳鼻喉科专家教你科学洁耳法

银屏灯鱼：打造你的梦幻水族箱

银屏灯鱼：打造你的梦幻水族箱

兴宁市必打卡：神光山&合水水库美景推荐

兴宁市必打卡：神光山&合水水库美景推荐

神光山国家森林公园：粤东明珠，自然与人文的完美融合

神光山国家森林公园：粤东明珠，自然与人文的完美融合

探访兴宁古城墙与学宫：感受千年文脉

探访兴宁古城墙与学宫：感受千年文脉

资深钓鱼人的养鱼秘籍大公开！

资深钓鱼人的养鱼秘籍大公开！

金鱼也会抑郁？科学揭秘鱼类心理健康

金鱼也会抑郁？科学揭秘鱼类心理健康

冬日打卡武汉：黄鹤楼、户部巷、东湖绿道必吃攻略

冬日打卡武汉：黄鹤楼、户部巷、东湖绿道必吃攻略

武汉十大名菜：文旅融合新引擎

武汉十大名菜：文旅融合新引擎

董卿与《中国诗词大会》：一场诗词与灵魂的相遇

董卿与《中国诗词大会》：一场诗词与灵魂的相遇

董卿新节目《朗读者》第三季：文化盛宴中的温情与思考

董卿新节目《朗读者》第三季：文化盛宴中的温情与思考

癌症治疗，不只是“治病”，更要“暖心”

癌症治疗，不只是“治病”，更要“暖心”

养老金领取条件是什么？领取流程来了

养老金领取条件是什么？领取流程来了

日到货超2.2万吨苏州人春节"菜篮子"有保障

日到货超2.2万吨苏州人春节"菜篮子"有保障

成都春节水果市场热销：进口车厘子成新宠，线上销量暴增95%

成都春节水果市场热销：进口车厘子成新宠，线上销量暴增95%

巩汉林官宣将参加澳洲春晚，曾“封杀”自己，从春晚舞台消失十年

巩汉林官宣将参加澳洲春晚，曾“封杀”自己，从春晚舞台消失十年

一妻多夫制的国家，一家人怎么一起生活？

一妻多夫制的国家，一家人怎么一起生活？

刘三姐黄婉秋：与儿子先后离世，遗言催人泪下，丈夫悲痛欲绝

刘三姐黄婉秋：与儿子先后离世，遗言催人泪下，丈夫悲痛欲绝

企业隐私保护体系建设指南：从法规遵从到最佳实践

企业隐私保护体系建设指南：从法规遵从到最佳实践

双十一购物狂欢后，如何防止个人信息泄露？

双十一购物狂欢后，如何防止个人信息泄露？

个人信息泄露？教你如何快速维权！

个人信息泄露？教你如何快速维权！

感冒时补充益生菌？教你一个除了维生素C的新选择

感冒时补充益生菌？教你一个除了维生素C的新选择

虚汗的治疗与调理方法：从成因到生活习惯全方位解析

虚汗的治疗与调理方法：从成因到生活习惯全方位解析

流虚汗是什么原因

流虚汗是什么原因

智能灌溉技术助力干旱地区水资源管理升级

智能灌溉技术助力干旱地区水资源管理升级

西北干旱区：气候变化下的挑战与应对

西北干旱区：气候变化下的挑战与应对

冬天喝酒需要温酒吗？关于冬天喝酒的注意事项建议收藏！

冬天喝酒需要温酒吗？关于冬天喝酒的注意事项建议收藏！

喝醉酒了，怎么快速缓解呕吐与不适？实用指南

喝醉酒了，怎么快速缓解呕吐与不适？实用指南

各民族服饰特点

各民族服饰特点

中国烹饪大师汪建国：楚菜传承与创新的卓越贡献

中国烹饪大师汪建国：楚菜传承与创新的卓越贡献

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号