AI智能体评测框架综述:从AgentBench到AlpacaEval
AI智能体评测框架综述:从AgentBench到AlpacaEval
最近,我们在开发一个名为"Super Agent"的超级智能体项目。该项目的目标是构建能够完成各种任务的智能体,并将它们组合起来形成更强大的智能体。为了确保智能体的质量,我们需要一个有效的评测框架。本文将介绍一些现有的智能体评测方法,并探讨它们在"Super Agent"项目中的适用性。
AgentBench:评估大语言模型的能力
AgentBench是由清华大学开发的一个评测框架,主要用于评估大语言模型(LLM)在不同领域的表现。它涵盖了8个主要领域:
- 基于代码的环境:包括操作系统命令翻译、数据库查询(Text-2-SQL)和知识图谱问答。
- 基于游戏的环境:如数字卡游戏、横向思维谜题和日常生活任务。
- 基于网络的环境:如网上购物和网页浏览。
图:AgentBench概览
AgentBench的主要特点包括:
- 通过Docker技术稳定实验环境,便于研究人员统一使用。
- 指出当前最强的GPT-4也无法承担实际可用的智能体任务,并分析了五个失败原因:上下文长度限制、格式不遵循、无效工具选择、多轮任务迭代失败等。
ToolEyes:评估工具使用能力
ToolEyes是由复旦大学主导的评测系统,专注于评估大语言模型在工具使用方面的能力。它考察了7个真实场景:文本生成、数据理解、实时搜索、程序操作、个人生活、信息检索和金融交易。
ToolEyes评估了大语言模型在工具使用中的五个维度:
- 格式对齐:是否按格式要求生成正确的工具调用信息。
- 意图理解:思维过程与用户需求的相关性和适应性。
- 行为规划:思维过程的有效性和逻辑完整性。
- 工具选择:工具选择和参数输入是否符合要求。
- 答案组织:能否在规定次数内完成任务并提供高质量回复。
图:ToolEyes评估的七类场景中使用的各类工具
RoTBench:评估鲁棒性
RoTBench同样来自复旦大学,专注于评估大语言模型在面对现实世界噪音时的工具使用稳定性。它建立了5个不同噪声级别的外部环境,评估模型在工具选择、参数识别和内容填充三个关键阶段的弹性。
MT-Bench:用大语言模型做裁判
MT-Bench由加州大学伯克利分校等机构开发,探索使用优秀的大语言模型(如GPT-4)作为评判者来评估开放式问题的结果。研究表明,GPT-4的判断与人类偏好一致性达到80%以上。
AlpacaEval:全自动评估工具
AlpacaEval是一个由斯坦福大学开发的全自动评估工具,用于评估指令跟踪语言模型。它采用让大语言模型担任裁判的基本方法,具有经济高效、快速的特点。评估机制通过计算模型在各种任务中的胜率,提供全面的模型能力衡量。
图:Alpaca Eval概览
总结与思考
虽然现有的评测框架(如AgentBench等)多以大语言模型为评测对象,但MT-Bench提供了用优秀大语言模型作为评估者的理论依据,AlpacaEval则提供了一个可借鉴的系统化和高度自动化的方法。对于高度定制化的智能体评测,可以考虑沿用AlpacaEval的方法,将其测评数据集替换为智能体的测评数据集。
参考文献
- AgentBench: Evaluating LLMs as Agents, https://arxiv.org/abs/2308.03688
- ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios, https://arxiv.org/abs/2401.00741
- RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning, https://arxiv.org/abs/2401.08326
- Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, https://arxiv.org/abs/2306.05685
- AlpacaEval by Stephen M. Walker II, https://klu.ai/glossary/alpaca-eval
- Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators, https://arxiv.org/abs/2404.04475