问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Agent Q:自主 AI 智体的高级推理和学习

创作时间:
作者:
@小白创作中心

Agent Q:自主 AI 智体的高级推理和学习

引用
CSDN
1.
https://blog.csdn.net/yorkhunter/article/details/141309699

大语言模型(LLM)在自然语言处理任务中展现出了强大的能力,但它们在交互式环境中的应用仍然面临诸多挑战。为了克服这些挑战,来自MultiOn AGI公司和斯坦福大学的研究团队提出了一种名为Agent Q的框架,通过引导式蒙特卡洛树搜索(MCTS)和自我批评机制,显著提升了AI智体在复杂环境中的推理和学习能力。

Agent Q框架的核心创新

传统的静态数据集监督预训练无法满足动态环境中的复杂决策需求。虽然专家演示监督微调在一定程度上弥补了这一差距,但仍然存在复合错误和探索数据有限的问题。Agent Q框架通过结合MCTS搜索与自我批评机制,以及直接偏好优化(DPO)算法的去策略变体,实现了对智体交互的迭代微调。

这种方法允许LLM智体从成功和不成功的轨迹中有效学习,从而提高其在复杂、多步推理任务中的泛化能力。在WebShop环境中的实验结果显示,Agent Q始终优于行为克隆和强化学习的微调基线,并在具备在线搜索能力时超越了人类的平均表现。

Agent Q框架的技术细节

观察与动作

  • 观察:智体的观察o_t包括用户命令、浏览器信息以及可能的用户反馈。
  • 动作:智体的动作a_t是复合的,基于智体的历史h_t。基本方法是带有初步规划步骤的PlanReAct(Liu et al. 2023)和ReAct智体(Yao et al. 2023b),并带有一些附加组件。

智体状态表示

智体的状态表示为h_t = (a_1, ..., a_{t-1}, o_t),即由迄今为止生成的动作和当前浏览器状态组成。这种表示方式既紧凑又能够充分表示智体的状态和意图。

算法选择

  • 直接偏好优化(DPO):作为一种离线RL替代方案,DPO不需要在线数据,非常适合智体微调。
  • 蒙特卡洛树搜索(MCTS):用于平衡探索和利用,通过置信上边界(UCB1)公式选择节点。

实验结果

在WebShop环境中的实验结果显示,Agent Q + MCTS相比基础模型实现了显著提升(相对提升76.57%),在WebShop上的表现优于人类平均表现,成功率为50.5%。

在OpenTable预订场景中,Agent Q + MCTS的表现最为出色,在OpenTable上的性能达到95.4%。

结论

Agent Q框架通过创新的MCTS搜索和DPO算法,显著提升了AI智体在复杂环境中的推理和学习能力。这一研究为解决LLM在交互式环境中的应用难题提供了新的思路和解决方案。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号