多智能体协作新框架AGENTVERSE:探索协作行为与效率提升
多智能体协作新框架AGENTVERSE:探索协作行为与效率提升
大模型(LLMs)赋予了自主智能体广泛的任务泛化能力,但现实任务往往需要团队合作来提升效率。尽管已有研究探索了智能体的合作潜力,但这些研究通常局限于特定任务,缺乏通用性,并且智能体的合作方式较为固定,缺乏适应性。针对这一挑战,来自清华大学计算机科学与技术系、北京邮电大学计算机科学学院以及腾讯公司微信AI团队的研究人员共同提出了一个名为AGENTVERSE的多智能体框架。
AGENTVERSE框架
AGENTVERSE框架被设计来模拟人类群体的问题解决过程,以提高自主智能体团队实现目标的有效性。该框架由四个关键阶段组成(图1):专家招募、协作决策制定、行动执行和评估。
专家招募
在专家招募阶段,框架确定多智能体团队的组成,这对决定团队的能力上限至关重要。研究证据表明,人类群体中的多样性引入了不同的观点,增强了团队在不同任务中的表现。AGENTVERSE通过自动化专家招募,使智能体配置更加可扩展。对于给定的目标g∈G,特定的智能体M_r被提示为“招募者”,类似于人力资源经理。招募者不是依赖于预定义的专家描述,而是根据g动态生成一组专家描述。然后,被这些不同的专家描述提示的不同智能体就形成了一个专家组M=M_r(g)。值得注意的是,多智能体团队的组成将根据评估阶段(后面提及)的反馈动态调整。这允许AGENTVERSE根据当前状态使用最合适的团队,以便在未来的轮次中做出更好的决策。
协作决策制定
协作决策制定阶段让专家智能体参与协作决策。为了促进有效的决策,先前的研究已经调查了智能体之间不同沟通结构的影响。研究主要关注两种典型的沟通结构:水平结构和垂直结构。
- 水平结构:在这个民主结构中,每个智能体m_i∈M共享和完善其决策a_mi。小组的集体决策
是使用函数f整合个别智能体的决策而形成的,这可能涉及总结或集成等技术。这种结构特别适用于咨询和工具使用等场景。 - 垂直结构:相反,垂直结构有明确的角色划分。一个被称为求解器的智能体m^∗提出一个初始决策
。其他智能体作为评审者,对这个提案提供反馈,促使求解器进行迭代改进,直到评审者达成共识或完成设定的迭代次数。最终决策A给出为
,其中k表示改进的次数。垂直结构更适用于数学问题求解和软件开发等任务,这些任务只需要一个经过改进的决策。
行动执行
在决策制定阶段,智能体共同促成一个包含需要在当前环境中执行的行动的团队决策A。在行动执行阶段,智能体随后在环境中执行集体决定的行动。根据实现的不同,一些智能体可能不执行任何执行。由于这些行动,环境状态从
转换为
。
评估
评估阶段对于AGENTVERSE至关重要,它指导后续轮次的改进。在这个阶段,反馈机制R评估当前状态
和期望目标g∈G之间的差异。然后,它提供口头反馈
,详细说明不足的领域,并提出增强性能的方法。R可以由人类定义(在人工参与的设置中)或智能体定义,用于自动反馈,具体取决于实现方式。如果目标g仍未实现,反馈r返回到最初的专家招募阶段。在下一轮中,专家招募阶段将考虑反馈r和目标g,以调整团队的组成,旨在根据当前进展发展出更有效的多智能体团队。
实验
设计了四个实验任务。这些任务评估智能体团队的不同方面,包括理解与推理能力、编程能力、工具使用能力,以及在具身智能中的潜力。
实验中评估了由GPT-3.5-Turbo0613和GPT-4-0613驱动的智能体在各种任务上的表现。所有实验都在零样本设置下完成。实验比较了三种设置:
- CoT:链式思考智能体;
- Solo:在决策阶段使用AGENTVERSE的单个智能体,包括专家招募、行动执行和评估模块;
- Group:在决策阶段实现AGENTVERSE的多个智能体协作。
理解与推理能力
AGENTVERSE框架通过使用FED、Commongen Challenge、MGSM和Logic Grid Puzzles等数据集进行评估。实验结果表明,无论是GPT-3.5-Turbo还是GPT-4,AGENTVERSE组装的智能体在Solo和Group设置下均优于单独的CoT智能体。
表1展示了不同任务上评估智能体的一般能力的结果。例如,在对话(FED)任务中,GPT-4驱动的智能体在Group设置下得分为96.8,表明在AGENTVERSE框架下,智能体团队的协作可以显著提升性能。
编程能力
Humaneval代码补全数据集被用来测试智能体。表2展示了从CoT到Solo再到Group设置,智能体的性能明显提高。特别是在GPT-4的Group设置下,性能从83.5提高到89.0,显示了AGENTVERSE在管理技能娴熟的智能体团队进行编程方面的有效性。
工具使用能力
通过设计一组需要至少两种工具才能完成的复杂任务来进行评估。AGENTVERSE策划的智能体团队成功完成了9个任务,而单个ReAct智能体只完成了3个任务,证明了AGENTVERSE在提升工作效率方面的优势。
实验证明AGENTVERSE框架通过模拟人类群体的问题解决过程,有效地增强了智能体团队在多样化任务中的协作和性能。AGENTVERSE还能够引导智能体团队展现出独特的协作行为,进一步提升团队效率。
更多详细信息请参考原论文:AGENTVERSE: A Framework for Simulating Human Group Problem-Solving with Autonomous Agents
项目代码:AgentVerse GitHub