问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Agent-as-a-Judge:AI系统评估新思路

创作时间:
作者:
@小白创作中心

Agent-as-a-Judge:AI系统评估新思路

引用
1
来源
1.
https://www.53ai.com/news/LargeLanguageModel/2024103137521.html

随着AI技术的快速发展,传统的评估方法已经无法满足需求。本文介绍了一种创新的AI系统评估框架——Agent-as-a-Judge,它通过AI评估AI的方式,能够在整个任务解决过程中提供丰富的反馈,为AI系统的自我改进提供了新的思路。

一、当前评估方法的局限性

(一)聚焦最终结果

传统 AI 评估主要关注最终输出,例如评估代码生成系统时,仅看生成的代码是否成功运行或解决特定任务。这种方式忽略了系统达成解决方案的复杂过程,如同仅根据学生的期末考试成绩评分,而忽视其学习过程。

(二)缺乏中间反馈

智能体系统像人类一样是逐步操作的,在解决问题过程中会做出决策、根据反馈调整并不断优化方法。但现有评估方法无法在任务解决过程中提供中间反馈,导致我们无法深入了解系统的性能和改进方向。

(三)人工评估的不可扩展性

依靠人工评估者不仅劳动强度大、成本高,还容易出现偏差和不一致。尽管可以训练人工评估 AI,但所需的时间和资源使其在 AI 系统日益复杂的情况下变得不切实际。

二、Agent-as-a-Judge:AI评估AI

受大型语言模型(LLM)作为评估员(LLM-as-a-Judge)框架成功的启发,该框架利用大型语言模型来评估其他大型语言模型,Agent-as-a-Judge框架在此基础上更进一步。它应用自主型系统——能够做出决策并自主行动的AI系统——来评估其他自主型系统。本质上,这是AI评估AI,但能够在整个任务解决过程中提供丰富的反馈。

Agent-as-a-Judge框架并不只是等待代理完成任务后才做出判断。相反,它评估每一个中间步骤,并实时提供反馈。这就像拥有一个个人导师,跟踪你的每一个动作,帮助你识别错误、改进方法,并在你工作时不断提高。

三、关键创新:DevAI数据集

为了证明Agent-as-a-Judge框架的潜力,研究人员开发了DevAI,一个包含55个现实AI开发任务的基准。这些任务从生成代码到解决复杂的开发问题,模拟了AI开发者在现实世界中面临的挑战。DevAI中的每个任务都有详细的层次结构和偏好要求,使评估系统能够在从简单里程碑到更抽象目标的多个层次上衡量成功。

与关注狭窄、孤立问题的现有基准不同,DevAI反映了实际AI开发的复杂性。它提供了一种全面评估自主型系统的方法,不仅关注其最终输出,还关注达到该输出的整个过程。

四、Agent-as-a-Judge的工作原理:组件

Agent-as-a-Judge框架的核心是一组八个模块化组件,它们模仿人类评估过程。每个组件在评估代理的性能方面发挥着特定作用:

  1. Graph Module:构建整个项目的图,包括文件、模块和依赖项。这有助于系统将任务分解成更小、更易管理的部分。
  2. Locate Module:根据要求识别特定的文件或文件夹,确保代理正在针对项目的正确部分。
  3. Read Module:超越简单的文件解析,支持读取和理解跨各种格式(代码、图像、视频等)的多模态数据。
  4. Search Module:提供代码的上下文理解,检索相关代码片段并分析依赖项。
  5. Retrieve Module:从长输出中提取相关信息,如日志或开发轨迹,允许进行更细致的评估。
  6. Ask Module:基于其他模块提供的上下文,确定给定要求是否已满足。
  7. Memory Module:存储历史判断和决策,允许系统基于过去的评估不断改进。
  8. Planning Module:根据任务的当前状态计划未来行动,确保代理正在做出与项目目标一致的战略决策。

这些组件共同使系统能够在任务解决过程中提供丰富、实时的反馈,而不是仅仅评估最终结果。

五、Agent-as-a-Judge 框架的测试结果

与 LLM-as-a-Judge 对比

在对 MetaGPT、GPT - Pilot 和 OpenHands 等三个流行智能体系统在 DevAI 数据集上的测试中,Agent-as-a-Judge 框架表现出色。它与人类评估者的一致性达到 90%,而 LLM - as - a - Judge 仅为 70%。

成本和时间效益

该框架将评估的时间和成本降低了 97% 以上,是一种极具可扩展性的解决方案,适用于现实世界的应用。

可靠性

在某些情况下,Agent-as-a-Judge 框架比单个人工评估者更一致和可靠,更接近专家评委的共识。

六、Agent-as-a-Judge 框架的优势

中间反馈促进自我改进

框架能够在任务解决过程中提供反馈,帮助智能体系统实时识别和纠正错误,实现持续自我改进。

成本和时间效率

无需人工评估者,提供更高效的自动化评估,大幅降低评估的时间和成本,可应用于多种现实场景。

丰富动态反馈

不同于传统方法只衡量最终结果,它评估过程的每一步,深入了解智能体系统的运作和改进之处。

可扩展性

能够并行评估多个智能体系统,随着 AI 的发展,可处理日益复杂的任务。

Agent-as-a-Judge 框架是 AI 系统评估方法的重大突破。它克服了传统评估方法的缺陷,通过智能体评估智能体,在任务解决过程中提供丰富动态反馈,具有成本效益高、可扩展性强等优势。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号