同时操控手机和电脑,100项任务,跨系统智能体评测基准有了
同时操控手机和电脑,100项任务,跨系统智能体评测基准有了
AI智能体(Agent)是当下大型语言模型社区中最为吸引人的研究方向之一。为了评估基于多模态语言模型的智能体在跨环境任务中的表现,CAMEL AI社区主导开发了跨平台的多模态智能体基准测试CRAB。该框架支持同时操作多个设备,提供高效的任务和评估器构建工具,包括基于图的细粒度评估方法和子任务组合任务构建方法。研究人员基于CRAB框架开发了涵盖100个任务的测试数据集CRAB Benchmark-v0,实验结果显示,使用GPT-4o作为推理引擎的单智能体结构拥有最高的测试点完成率35.26%。
跨平台多模态智能体基准测试CRAB
跨平台的多模态智能体基准测试CRAB由CAMEL AI社区主导,由来自牛津、斯坦福、哈佛、KAUST、Eigent AI等机构的研究人员合作开发。CAMEL AI社区开发的CAMEL框架是最早基于大语言模型的多智能体开源项目,因此社区成员多为在智能体领域有丰富科研和实践经验的研究者和工程师。
AI智能体是当下大型语言模型社区中最为吸引人的研究方向之一,用户只需要提出自己的需求,智能体框架便可以调度多个LLMs并支持多智能体(Multi-agents)以协作或竞争的方式来完成用户给定的任务。
目前智能体已越来越多地与大型多模态模型 (MLM) 相结合,支持在各种操作系统(包括网页、桌面电脑和智能手机)的图形用户界面(GUI)环境中执行任务。但是目前针对这种智能体性能评估的基准(benchmarks)仍然存在很多局限性,例如构建任务和测试环境的复杂性,评价指标的单一性等。
针对这些问题,本文提出了一个全新的跨环境智能体基准测试框架CRAB。CRAB采用了一种基于图的细粒度评估方法,并提供了高效的任务和评估器构建工具。本文的研究团队还基于CRAB框架开发了一个跨平台的测试数据集CRAB Benchmark-v0,其中涵盖了可以在PC和智能手机环境中执行的100个任务,其中既包含传统的单平台任务,还包含了必须同时操作多个设备才能完成的复杂跨平台任务。
CRAB框架的核心创新
作为全新的智能体评估基准框架,CRAB主要用于评估基于多模态语言模型(MLMs)的智能体在跨环境任务中的表现。CRAB可以模拟真实世界中人类用户同时使用多个设备完成复杂任务的场景,如Demo所示,CRAB可以用来评估智能体同时操纵一个Ubuntu桌面系统和一个Android手机系统完成发送信息的过程。
为了达成这个目标,CRAB框架尝试解决以下几个实际问题:
跨环境任务评估:现有的基准测试通常只关注单一环境(如网页、Android或桌面操作系统),而忽视了真实世界中跨设备协作场景的复杂性。CRAB框架支持将一个设备或应用的交互封装为一个环境,通过对多环境任务的支持,提供给智能体更丰富的操作空间,也更贴近实际应用场景。
细粒度评估方法:传统的评估方法要么只关注最终目标的完成情况(目标导向),要么严格比对操作轨迹(轨迹导向)。这两种方法都存在局限性,无法全面反映智能体的表现。CRAB提出了基于图的评估方法,既能提供细粒度的评估指标,又能适应多种有效的任务完成路径。
任务构建复杂性:随着任务复杂度的增加,手动构建任务和评估器变得越来越困难。CRAB提出了一种基于子任务组合的方法,简化了跨环境任务的构建过程。
智能体系统结构评估:本文还探讨了不同智能体系统结构(单智能体、基于功能分工的多智能体、基于环境分工的多智能体)对任务完成效果的影响,为设计更高效的智能体系统提供了实证依据。
上表展示了CRAB框架与现有其他智能体基准框架的对比,相比其他基准,CRAB可以同时支持电脑和手机等跨平台的操作环境,可以模拟更加真实的使用场景。
CRAB框架的技术细节
跨环境智能体交互
CRAB首次引入了跨环境任务的概念,将多个环境(如智能手机和桌面电脑)组合成一个环境集合,使智能体能够在多个设备之间协调操作完成复杂任务。
在CRAB框架中使用基于环境分工的多智能体系统的运行流程如上图所示。工作流程通过一个循环进行,首先通过主智能体观察环境,并对子智能体指定计划,然后所有的子智能体在各自的环境中执行操作。随后由一个图评估器(Graph Evaluator)来监视环境中各个子任务的状态,并在整个工作流程中不断更新任务的完成情况。这种评估方式可以贴近真实场景,以考验智能体的推理能力,这要求智能体能够处理复杂的消息传递,并且需要深入理解现实世界的情况。
图评估器(Graph Evaluator)
CRAB内置的图评估器同时兼顾了目标导向和轨迹导向评估的优点,其首先将复杂任务分解为多个子任务,形成一个有向无环图结构。随后定义了一种节点激活机制,即图中的节点(子任务)需要根据前置任务的完成情况逐步激活,确保任务的顺序执行。其中每个节点都关联了一个验证函数,用来检查环境中的关键中间状态。相比之前的评估基准,CRAB图评估器创新性地引入了一系列新的评价指标:
- 完成率(Completion Ratio, CR):完成的子任务节点数量与总节点数量的比率,CR = C / N。
- 执行效率(Execution Efficiency, EE):完成率与执行的动作数量的比值,EE = CR / A,A为指定的动作数。
- 成本效率(Cost Efficiency, CE):完成率与使用的模型token数量的比值,CE = CR / T,T为使用的模型token数量。
这些指标为智能体基准提供了更细粒度和更多维度的评估侧重点。
CRAB Benchmark-v0
基于提出的CRAB框架,本文构建了一个具体的基准测试集CRAB Benchmark-v0用于社区进一步开展研究。CRAB Benchmark-v0同时支持Android手机和Ubuntu Linux桌面电脑两个环境。并且为Ubuntu和Android定义了不同的动作集,用来模拟真实生活中的常见交互。其观察空间由两种环境的系统界面构成,并且使用屏幕截图形式获取环境状态。为了方便智能体在GUI中操作,作者使用GroundingDINO来定位可交互图标,使用EasyOCR检测和标注可交互文本,为每个检测项分配一个ID,方便后续在操作空间内引用。
我们以一个具体任务举例,例如在Ubuntu系统上完成如下任务:创建一个新目录“/home/crab/assets_copy”,并将所有具有指定“txt”扩展名的文件从“/home/crab/assets”复制到目录“/home/crab/assets_copy”。该任务需要执行多步操作才能完成,下图展示了当使用GPT-4 Turbo作为推理模型并采用单智能体结构时的实验细节。智能体首先使用search_application命令查找终端并打开。然后使用Linux命令“mkdir -p /home/crab/assets_copy”创建新的目标目录。在创建好目标目录后,智能体直接在终端中执行了拷贝命令:“cp /home/crab/assets/*.txt/home/crab/assets_copy”来完成任务,整个流程行云流水,没有任何失误。
实验效果
作者随后在CRAB Benchmark-v0进行了baseline实验,智能体的核心是后端的多模态语言模型,其用来提供自然语言和图像理解、基本设备知识、任务规划和逻辑推理能力,需要支持多模态混合输入,可以同时处理多轮对话,因而作者选取了GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024年5月版本)和Claude 3 Opus (claude-3-opus-20240229)作为baseline模型。
实验结果如上表所示,其中GPT-4o和GPT-4 Turbo模型在测试模型中实现了最高的平均测试点完成率(CR)。在执行效率(EE)和成本效率(CE)方面,GPT-4系列也相比Gemini和Claude系列模型更加优秀。
总结
本文介绍了一种全新的跨环境多智能体评估基准CRAB,CRAB框架通过引入跨环境任务、图评估器和基于子任务组合的任务构建方法,为自主智能体的评估提供了一个更加全面、灵活和贴近实际的基准测试平台。相比先前的智能体基准,CRAB减少了任务步骤中的手动工作量,大大提高了基准构建效率。基于CRAB,本文提出了Crab Benchmark-v0,同时支持智能体在Ubuntu和Android系统上执行多种复杂的跨环境任务,这一基准的提出,不仅可以推动自主智能体评价体系的发展,也为未来设计更加高效的智能体系统提供全新灵感。
参考文献
[1] Shuyan Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. Oct.24, 2023. URL: http://arxiv.org/abs/2307.13854. preprint.
[2] Chi Zhang et al. AppAgent: Multimodal Agents as SmartphoneUsers. Dec. 21, 2023. URL: http://arxiv.org/abs/2312.13771. preprint.
[3] Shunyu Yao et al. “Webshop: Towards scalable real-world web interaction with grounded language agents”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 20744–20757.
[4] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Apr. 11, 2024. URL: http://arxiv.org/abs/2404.07972. preprint.
[5] Lin, Fangru, et al. "Graph-enhanced Large Language Modelsin Asynchronous Plan Reasoning." arXiv preprint arXiv:2402.02805 (2024).
[6] Tushar Khot et al. “Decomposed Prompting: A Modular Approach for Solving Complex Tasks”. In: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.
[7] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv.org. Mar. 9, 2023.