问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

复旦大学推出AgentGym平台:实现大语言模型智能体的「自我进化」能力

创作时间:
作者:
@小白创作中心

复旦大学推出AgentGym平台:实现大语言模型智能体的「自我进化」能力

引用
CSDN
1.
https://blog.csdn.net/weixin_43145427/article/details/139831971

复旦大学语言与视觉团队近日推出AgentGym平台,该平台首次实现了大语言模型智能体的「自我进化」能力。基于AgentGym框架提出的AgentEvol算法,在多项智能体任务上展现出非凡表现,与GPT-4、Claude等SOTA模型比肩。

AI通用智能体的自我进化能力,并非遥不可及。基于大语言模型的智能体已经不再需要人类监督者的帮助,开始实现「自我进化」!这个智能体在学习了专家轨迹以后,获得了基础的通用能力,能够在更广泛、更真实的未知环境与任务上进行探索和学习,在外部的反馈下不断提升自己。

最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法,首次探索了通用智能体的自我进化能力,并在多项智能体任务上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。

论文中首次探讨了构建具备自我进化能力的通用LLM代理,提出了三大关键要素:多样化环境、轨迹集以及有效的进化方法,并设计了AgentGym框架来实现这一目标。

1 智能体发展的两个方向

大语言模型凭借其卓越的通用能力,被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索,以推动智能体技术的进一步发展。

依赖于人类监督的行为克隆(Behavior Cloning)方法,需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效,但由于标注资源的限制,难以扩展。对环境的探索也较为有限,容易遇到性能或泛化性的瓶颈。

允许智能体根据环境反馈,不断提高能力的自我改进(Self Improving)方法,减少了对人类监督的依赖,同时丰富对环境的探索深度。然而,它们通常在特定任务的孤立环境中进行训练,得到一批无法有效泛化的专家智能体。

2 智能体进化的三大支柱

构建能够同时处理多种任务并在不同环境中自我进化的通用代理是人工智能领域的长期目标。当前的方法要么依赖于人类监督,让智能体模仿专家提供的轨迹,难以扩展;要么让智能体在孤立环境中学习,导致其泛化能力有限。为了实现在多种环境和任务中具有自我进化的潜力,文中首次探讨了一个具备基础能力的通用智能体,并确定了推动智能体自我进化的「三大关键支柱」,这些支柱是研究的核心要素。

多样化的环境和任务,其允许智能体动态且全面地进行交互、训练,而不是被局限于某个孤立的环境。

轨迹数据集,一个适当大小的轨迹数据集可以帮助智能体配备基本的指令遵循能力和基础任务知识。

有效的进化算法,一种有效且可扩展的进化算法可以激发智能体在不同难度环境中的泛化能力。

3 结论

论文中探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。而文中提出的AgentGym 平台,是一个全新的,支持大语言模型智能体轨迹采样、自我进化、能力评测的框架,特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的基于大语言模型的智能体。

论文链接:https://arxiv.org/abs/2406.04151

AgentGym代码仓库:https://github.com/WooooDyy/AgentGy

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号