问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MPO:一种提升大型语言模型代理规划能力的元计划优化框架

创作时间:
作者:
@小白创作中心

MPO:一种提升大型语言模型代理规划能力的元计划优化框架

引用
CSDN
1.
https://m.blog.csdn.net/m0_66899341/article/details/146055534

近年来,大型语言模型(LLMs)的最新进展使得基于LLM的代理能够成功应对交互式规划任务。然而,尽管取得了这些成功,现有方法常常受到规划幻觉的困扰,并且需要为每个新代理重新训练。为了应对这些挑战,本文提出了元计划优化(MPO)框架,该框架通过直接融入明确指导来增强代理的规划能力。

一、引言

随着大型语言模型(LLMs)的快速发展,基于LLM的代理已经能够在复杂的交互式规划任务中取得成功。这些任务要求代理理解长期依赖关系、对连续动作进行推理,并适应动态环境。然而,尽管取得了这些成就,现有方法仍然面临诸多挑战。特别是,这些方法容易出现规划幻觉(planning hallucinations),即代理在规划过程中生成与动作任务序列无关。或此外错误的,许多方法需要为每个新代理重新训练,导致计算成本高昂。

为了克服这些挑战,本文提出了元计划优化(Meta Plan Optimization, MPO)框架。该框架通过直接融入明确指导来增强代理的规划能力,利用元计划提供的高层次通用指导来辅助代理规划,并基于代理任务执行的反馈实现元计划的持续优化。

二、背景与动机

  1. 大型语言模型与代理

大型语言模型近年来在自然语言处理领域取得了显著进展,能够理解和生成复杂的自然语言文本。基于这些模型,研究者们开始构建能够执行各种任务的代理,如解答问题、编写代码、完成科学实验等。这些代理通常通过提示(prompt)或指令(instruction)来指导其行为。

  1. 现有方法的局限性

尽管基于LLM的代理在交互式规划任务中表现出色,但现有方法仍存在诸多问题。一些方法依赖于模型的内在能力进行隐式规划,但这些方法容易出现规划幻觉。另一些方法通过专家轨迹进行轨迹调优来增强隐式规划能力,但这些方法需要为每个新代理重新训练,计算成本高昂。此外,一些方法开始探索使用显式知识来指导代理执行任务,但这些方法要么需要大量人力来设计知识,要么缺乏质量保证。

三、元计划优化(MPO)框架

  1. 元计划的概念

元计划是一种高层次、抽象的指导策略,用于辅助代理规划。与隐式计划不同,元计划不依赖于具体的环境细节和复杂的代理轨迹,因此更容易进行优化。元计划为代理提供了一个通用的任务完成策略,使其能够在不同的环境中泛化。

  1. MPO框架的组成

MPO框架由元计划生成器和代理组成。元计划生成器负责生成高层次的元计划,而代理则提供任务执行反馈,以评估元计划的质量并帮助优化元计划生成器。MPO框架的工作流程如下:

  • 初始化:首先,通过监督微调(Supervised Fine-Tuning, SFT)来初始化元计划生成器。这需要使用专家轨迹来构建元计划训练集,并通过自动回归损失来训练元计划生成器。

  • 元计划质量评估:为了进一步优化元计划生成器,需要评估其生成的元计划的质量。这通过探索性方法实现,即将元计划插入到代理的提示中,并让代理多次尝试完成任务。根据代理的任务完成率来评估元计划的质量。

  • 元计划生成器优化:使用偏好学习(Preference Learning)来优化元计划生成器。具体来说,通过对比高质量和低质量的元计划对(通过蒙特卡洛采样生成),应用直接偏好优化(Direct Preference Optimization, DPO)来训练元计划生成器,使其生成更高质量的元计划。

  1. MPO框架的优势
  • 明确指导:MPO框架通过元计划为代理提供明确的高层次指导,有助于减少规划幻觉的发生。

  • 持续优化:基于代理任务执行的反馈,MPO框架能够持续优化元计划,提高其质量。

  • 即插即用:训练好的元计划生成器可以作为即插即用的组件,为不同的代理生成高质量的元计划,而无需为每个新代理重新训练。

四、实验与结果

  1. 实验设置
  • 数据集:实验在两个代表性数据集上进行:ScienceWorld(用于文本科学实验任务)和ALFWorld(用于实体家务任务)。这两个数据集都包含可见和未见场景的测试集,以评估元计划的泛化能力。

  • 实现细节:使用Llama-3.1-8B-Instruct模型作为元计划生成器的基础模型。在SFT初始化阶段,使用批量大小为32、学习率为1e-5的余弦调度器进行3个训练周期。在DPO训练阶段,设置元计划生成器为每个任务生成5个元计划,并使用vLLM加速生成过程。

  • 基线方法:与多种基线方法进行比较,包括不使用显式指导的方法、使用显式指导但需要重新训练的方法等。

  1. 实验结果
  • 性能提升:实验结果表明,融入MPO优化后的元计划能够显著提高代理在不同任务和框架下的性能。特别是,在LLama-3.1-8B-Instruct基础模型上,性能提升最高可达51.8%。

  • 泛化能力:在未见场景的测试集上,MPO也表现出色,显著提高了代理的成功率。例如,在ALFWorld的未见场景测试集上,GPT-4o的成功率从83.6%提高到93.3%。

  • 消融实验:消融实验结果表明,MPO优化后的元计划生成器在性能上优于其他训练方法(如SFT)。此外,将元计划插入到任务指令中的位置对代理性能有显著影响,插入到任务指令中的效果最佳。

  1. 效率分析

实验还分析了MPO对代理任务完成效率的影响。结果表明,融入高质量元计划后,代理的平均步长奖励显著提高,特别是在未见场景的任务中。这表明MPO不仅提高了代理的任务完成成功率,还提高了其任务完成效率。

五、分析与讨论

  1. 元计划的质量

进一步的分析表明,MPO优化后的元计划在正确性、可遵循性和标准化方面均优于SFT初始化的元计划。这些优势使得代理更容易有效地规划和执行任务。

  1. 对不同参数大小代理的影响

实验还探讨了MPO对不同参数大小代理的影响。结果表明,MPO能够显著增强中等参数大小代理的性能,而对小参数和大参数代理的性能提升相对有限。这可能是因为小参数代理的指令遵循能力有限,而大参数代理已经具备较强的规划能力。

  1. 与其他方法的比较

与现有方法相比,MPO具有多个优势。首先,MPO提供了显式指导,有助于减少规划幻觉的发生。其次,MPO通过反馈实现元计划的持续优化,提高了其质量。最后,MPO提供了一种即插即用的解决方案,无需为每个新代理重新训练。

六、结论与未来工作

  1. 结论

本文提出了元计划优化(MPO)框架,通过直接融入明确指导来增强基于LLM的代理的规划能力。实验结果表明,MPO显著提高了代理在不同任务和框架下的性能,并增强了其在未见场景中的泛化能力。此外,MPO还提供了一种即插即用的解决方案,降低了为每个新代理重新训练的成本。

  1. 未来工作

尽管MPO取得了显著的效果,但仍存在一些局限性。未来的工作可以从以下几个方面进行改进:

  • 探索更轻量级的元计划生成器:目前使用的Llama-3.1-8B-Instruct模型参数较大,未来可以尝试使用更轻量级的模型来降低计算成本。

  • 构建统一的元计划生成器:目前的方法为每个任务构建单独的元计划生成器,未来可以尝试构建一个统一的元计划生成器,能够处理多个任务。

  • 提高采样效率:在元计划生成器优化过程中,目前使用简单的采样和蒙特卡洛方法,未来可以尝试使用更高效的采样方法,如蒙特卡洛树搜索(MCTS)。

通过不断改进和完善MPO框架,有望进一步提高基于LLM的代理的规划能力,推动人工智能领域的发展。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号