MPO:一种提升大型语言模型代理规划能力的元计划优化框架
MPO:一种提升大型语言模型代理规划能力的元计划优化框架
近年来,大型语言模型(LLMs)的最新进展使得基于LLM的代理能够成功应对交互式规划任务。然而,尽管取得了这些成功,现有方法常常受到规划幻觉的困扰,并且需要为每个新代理重新训练。为了应对这些挑战,本文提出了元计划优化(MPO)框架,该框架通过直接融入明确指导来增强代理的规划能力。
一、引言
随着大型语言模型(LLMs)的快速发展,基于LLM的代理已经能够在复杂的交互式规划任务中取得成功。这些任务要求代理理解长期依赖关系、对连续动作进行推理,并适应动态环境。然而,尽管取得了这些成就,现有方法仍然面临诸多挑战。特别是,这些方法容易出现规划幻觉(planning hallucinations),即代理在规划过程中生成与动作任务序列无关。或此外错误的,许多方法需要为每个新代理重新训练,导致计算成本高昂。
为了克服这些挑战,本文提出了元计划优化(Meta Plan Optimization, MPO)框架。该框架通过直接融入明确指导来增强代理的规划能力,利用元计划提供的高层次通用指导来辅助代理规划,并基于代理任务执行的反馈实现元计划的持续优化。
二、背景与动机
- 大型语言模型与代理
大型语言模型近年来在自然语言处理领域取得了显著进展,能够理解和生成复杂的自然语言文本。基于这些模型,研究者们开始构建能够执行各种任务的代理,如解答问题、编写代码、完成科学实验等。这些代理通常通过提示(prompt)或指令(instruction)来指导其行为。
- 现有方法的局限性
尽管基于LLM的代理在交互式规划任务中表现出色,但现有方法仍存在诸多问题。一些方法依赖于模型的内在能力进行隐式规划,但这些方法容易出现规划幻觉。另一些方法通过专家轨迹进行轨迹调优来增强隐式规划能力,但这些方法需要为每个新代理重新训练,计算成本高昂。此外,一些方法开始探索使用显式知识来指导代理执行任务,但这些方法要么需要大量人力来设计知识,要么缺乏质量保证。
三、元计划优化(MPO)框架
- 元计划的概念
元计划是一种高层次、抽象的指导策略,用于辅助代理规划。与隐式计划不同,元计划不依赖于具体的环境细节和复杂的代理轨迹,因此更容易进行优化。元计划为代理提供了一个通用的任务完成策略,使其能够在不同的环境中泛化。
- MPO框架的组成
MPO框架由元计划生成器和代理组成。元计划生成器负责生成高层次的元计划,而代理则提供任务执行反馈,以评估元计划的质量并帮助优化元计划生成器。MPO框架的工作流程如下:
初始化:首先,通过监督微调(Supervised Fine-Tuning, SFT)来初始化元计划生成器。这需要使用专家轨迹来构建元计划训练集,并通过自动回归损失来训练元计划生成器。
元计划质量评估:为了进一步优化元计划生成器,需要评估其生成的元计划的质量。这通过探索性方法实现,即将元计划插入到代理的提示中,并让代理多次尝试完成任务。根据代理的任务完成率来评估元计划的质量。
元计划生成器优化:使用偏好学习(Preference Learning)来优化元计划生成器。具体来说,通过对比高质量和低质量的元计划对(通过蒙特卡洛采样生成),应用直接偏好优化(Direct Preference Optimization, DPO)来训练元计划生成器,使其生成更高质量的元计划。
- MPO框架的优势
明确指导:MPO框架通过元计划为代理提供明确的高层次指导,有助于减少规划幻觉的发生。
持续优化:基于代理任务执行的反馈,MPO框架能够持续优化元计划,提高其质量。
即插即用:训练好的元计划生成器可以作为即插即用的组件,为不同的代理生成高质量的元计划,而无需为每个新代理重新训练。
四、实验与结果
- 实验设置
数据集:实验在两个代表性数据集上进行:ScienceWorld(用于文本科学实验任务)和ALFWorld(用于实体家务任务)。这两个数据集都包含可见和未见场景的测试集,以评估元计划的泛化能力。
实现细节:使用Llama-3.1-8B-Instruct模型作为元计划生成器的基础模型。在SFT初始化阶段,使用批量大小为32、学习率为1e-5的余弦调度器进行3个训练周期。在DPO训练阶段,设置元计划生成器为每个任务生成5个元计划,并使用vLLM加速生成过程。
基线方法:与多种基线方法进行比较,包括不使用显式指导的方法、使用显式指导但需要重新训练的方法等。
- 实验结果
性能提升:实验结果表明,融入MPO优化后的元计划能够显著提高代理在不同任务和框架下的性能。特别是,在LLama-3.1-8B-Instruct基础模型上,性能提升最高可达51.8%。
泛化能力:在未见场景的测试集上,MPO也表现出色,显著提高了代理的成功率。例如,在ALFWorld的未见场景测试集上,GPT-4o的成功率从83.6%提高到93.3%。
消融实验:消融实验结果表明,MPO优化后的元计划生成器在性能上优于其他训练方法(如SFT)。此外,将元计划插入到任务指令中的位置对代理性能有显著影响,插入到任务指令中的效果最佳。
- 效率分析
实验还分析了MPO对代理任务完成效率的影响。结果表明,融入高质量元计划后,代理的平均步长奖励显著提高,特别是在未见场景的任务中。这表明MPO不仅提高了代理的任务完成成功率,还提高了其任务完成效率。
五、分析与讨论
- 元计划的质量
进一步的分析表明,MPO优化后的元计划在正确性、可遵循性和标准化方面均优于SFT初始化的元计划。这些优势使得代理更容易有效地规划和执行任务。
- 对不同参数大小代理的影响
实验还探讨了MPO对不同参数大小代理的影响。结果表明,MPO能够显著增强中等参数大小代理的性能,而对小参数和大参数代理的性能提升相对有限。这可能是因为小参数代理的指令遵循能力有限,而大参数代理已经具备较强的规划能力。
- 与其他方法的比较
与现有方法相比,MPO具有多个优势。首先,MPO提供了显式指导,有助于减少规划幻觉的发生。其次,MPO通过反馈实现元计划的持续优化,提高了其质量。最后,MPO提供了一种即插即用的解决方案,无需为每个新代理重新训练。
六、结论与未来工作
- 结论
本文提出了元计划优化(MPO)框架,通过直接融入明确指导来增强基于LLM的代理的规划能力。实验结果表明,MPO显著提高了代理在不同任务和框架下的性能,并增强了其在未见场景中的泛化能力。此外,MPO还提供了一种即插即用的解决方案,降低了为每个新代理重新训练的成本。
- 未来工作
尽管MPO取得了显著的效果,但仍存在一些局限性。未来的工作可以从以下几个方面进行改进:
探索更轻量级的元计划生成器:目前使用的Llama-3.1-8B-Instruct模型参数较大,未来可以尝试使用更轻量级的模型来降低计算成本。
构建统一的元计划生成器:目前的方法为每个任务构建单独的元计划生成器,未来可以尝试构建一个统一的元计划生成器,能够处理多个任务。
提高采样效率:在元计划生成器优化过程中,目前使用简单的采样和蒙特卡洛方法,未来可以尝试使用更高效的采样方法,如蒙特卡洛树搜索(MCTS)。
通过不断改进和完善MPO框架,有望进一步提高基于LLM的代理的规划能力,推动人工智能领域的发展。
本文原文来自CSDN