问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

科学家提出具身协同方法,实现大模型多智能体高效协作

创作时间:
作者:
@小白创作中心

科学家提出具身协同方法,实现大模型多智能体高效协作

引用
新浪网
1.
https://finance.sina.com.cn/roll/2024-07-08/doc-inccmqpi8163350.shtml

近日,中国电信人工智能研究院(TeleAI)联合上海人工智能实验室、清华大学、西北工业大学的研究人员在具身智能领域取得重要突破。研究团队提出了一种大模型驱动的具身智能体协同方法,通过多智能体强化学习框架实现了高效的多智能体协作。相关成果以《实现大模型驱动的具身多智能体高效协作》为题发表在预印本网站arXiv上。

中国电信CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的主要研究方向为具身智能、大模型、临地安防等领域。
TeleAI致力于构建兼容单智能体、多智能体的通用、高效、可泛化的具身大模型体系。


图 | 李学龙(来源:李学龙)

此前,大语言模型在具身智能中主要用于解决单智能体的任务规划问题。然而,由于大模型知识和特定的具身环境不对齐,大模型产生的规划往往难以在环境中执行。
举例来说,在打扫房间的任务中,大模型给出的规划可能是首先找到吸尘器。然而,环境中可能没有吸尘器,只能通过扫帚能完成该任务。
此时,大模型需要通过和环境的多轮交互和反馈来使其适应于具身环境,因而具有高昂的交互代价。

在多智能体环境中,每个智能体都使用大模型进行控制。在多个智能体协同完成任务时,除了会遇到类似单智能体的环境不适配问题,还存在多智能体如何高效沟通和协作的难题。
如果直接通过多智能体对话协商,来进行协作的方法是低效的。一方面,很难完全通过对话得出有效的协同策略;另一方面,无法衡量单个智能体对总体任务目标的贡献(即信度分配),难以驱动每个智能体改进策略来提升总体收益。

为了解决以上问题,李学龙教授团队提出了一种通过多智能体强化学习的大模型反馈方式,大大提升了群体沟通和环境反馈的效率。

受人类社会协同机制的启发,研究人员开始了该项研究。
具体来说,人类团队在合力完成任务时,往往需要一个“评价者”的角色,来衡量每个人对团队总体目标作出的贡献,从而指导个体的努力方向,保证整体目标的顺利完成。
研究人员解释说道:“如果缺乏‘评价者’而完全依靠个体沟通来进行协同,每个人往往很难把握自身工作对团队总体目标是否有益。”

基于此,该研究在大模型协同中引入了“优势函数”作为类似的“评价者”的角色,并根据多智能体强化学习为群体策略提升提供了理论基础。
首先,研究人员通过采集大模型驱动的多智能体和环境的交互历史,使用蒙特卡洛估计法学习群体动作的优势函数。
随后,根据多智能体优势函数分解理论,总体优势函数被分解成单个智能体的优势函数,这让精确度量智能体个体行为对总体的贡献成为可能。
研究人员表示:“优势函数分解体现了总体回报对个体行为的信度分配,实现了隐式的智能体沟通协调,替代了低效的对话式沟通方式。”


图 | 多智能体协同示意图(来源:arXiv)

在该研究中,研究人员将重点放在构建高效的大模型驱动的多智能体协同机制,使用仿真的多机器人协作平台 RoCoBench 和 Overcooked-AI 进行验证。这些任务都需要智能体具有高度的协同能力,来完成诸如扫地、做早餐、叠方块等任务。


图 | 多机器人协作示意图(来源:arXiv)

该方法在工业机器人协作、自动驾驶和物流运输以及开放领域的无人协同等领域,具有广泛的应用前景。

在工业场景中,完成一项任务往往需要驱动多个机器人进行协作。通过大模型对智能体控制,能够使多智能体在任务执行中进行高效沟通和协同,并具备从失败中进行恢复的泛化能力,在和环境交互中不断提升能力。

考虑多个自动驾驶或物流运输单元进行协同,目标是最大化总体运输效率。通过该研究的优势函数分解理论能够实现大模型驱动的个体信度分配,每个运输单元通过决策中提升群体的收益,提升总体运输效率。

通过大模型驱动无人集群对完成任务时,通过高效的协调机制使每个智能体承担不同的角色,并采取合适的动作保证总体目标的完成。大模型具备很强的泛化和推理能力,能在不断变化的开放领域中发挥重要作用。

据介绍,在后续的研究中,研究人员计划在两方面开展工作:
其一,进一步提升在多智能体系统扩展至包含数十个甚至上百个单元时的多协同,此时对强化学习优势函数的拟合将会存在困难,需要更加高效的多智能体价值分解方法,或采取分组和编队的方式实现大规模群体的协同。
其二,大模型在实际应用中采用边缘计算单元时存在计算瓶颈,难以实现高频决策和快速推理。因此,还将尝试将大模型的推理能力通过蒸馏的方法维持在一个较小的模型中,并通过人类反馈的方式对齐大小模型的能力。

参考资料:
1.https://arxiv.org/abs/2405.14314
2.https://read-llm.github.io/

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号