MPO：一种提升大型语言模型代理规划能力的元计划优化框架

创作时间:

作者:

@小白创作中心

MPO：一种提升大型语言模型代理规划能力的元计划优化框架

引用

CSDN

https://m.blog.csdn.net/m0_66899341/article/details/146055534

近年来，大型语言模型（LLMs）的最新进展使得基于LLM的代理能够成功应对交互式规划任务。然而，尽管取得了这些成功，现有方法常常受到规划幻觉的困扰，并且需要为每个新代理重新训练。为了应对这些挑战，本文提出了元计划优化（MPO）框架，该框架通过直接融入明确指导来增强代理的规划能力。

一、引言

随着大型语言模型（LLMs）的快速发展，基于LLM的代理已经能够在复杂的交互式规划任务中取得成功。这些任务要求代理理解长期依赖关系、对连续动作进行推理，并适应动态环境。然而，尽管取得了这些成就，现有方法仍然面临诸多挑战。特别是，这些方法容易出现规划幻觉（planning hallucinations），即代理在规划过程中生成与动作任务序列无关。或此外错误的，许多方法需要为每个新代理重新训练，导致计算成本高昂。

为了克服这些挑战，本文提出了元计划优化（Meta Plan Optimization, MPO）框架。该框架通过直接融入明确指导来增强代理的规划能力，利用元计划提供的高层次通用指导来辅助代理规划，并基于代理任务执行的反馈实现元计划的持续优化。

二、背景与动机

大型语言模型与代理

大型语言模型近年来在自然语言处理领域取得了显著进展，能够理解和生成复杂的自然语言文本。基于这些模型，研究者们开始构建能够执行各种任务的代理，如解答问题、编写代码、完成科学实验等。这些代理通常通过提示（prompt）或指令（instruction）来指导其行为。

现有方法的局限性

尽管基于LLM的代理在交互式规划任务中表现出色，但现有方法仍存在诸多问题。一些方法依赖于模型的内在能力进行隐式规划，但这些方法容易出现规划幻觉。另一些方法通过专家轨迹进行轨迹调优来增强隐式规划能力，但这些方法需要为每个新代理重新训练，计算成本高昂。此外，一些方法开始探索使用显式知识来指导代理执行任务，但这些方法要么需要大量人力来设计知识，要么缺乏质量保证。

三、元计划优化（MPO）框架

元计划的概念

元计划是一种高层次、抽象的指导策略，用于辅助代理规划。与隐式计划不同，元计划不依赖于具体的环境细节和复杂的代理轨迹，因此更容易进行优化。元计划为代理提供了一个通用的任务完成策略，使其能够在不同的环境中泛化。

MPO框架的组成

MPO框架由元计划生成器和代理组成。元计划生成器负责生成高层次的元计划，而代理则提供任务执行反馈，以评估元计划的质量并帮助优化元计划生成器。MPO框架的工作流程如下：

初始化：首先，通过监督微调（Supervised Fine-Tuning, SFT）来初始化元计划生成器。这需要使用专家轨迹来构建元计划训练集，并通过自动回归损失来训练元计划生成器。
元计划质量评估：为了进一步优化元计划生成器，需要评估其生成的元计划的质量。这通过探索性方法实现，即将元计划插入到代理的提示中，并让代理多次尝试完成任务。根据代理的任务完成率来评估元计划的质量。
元计划生成器优化：使用偏好学习（Preference Learning）来优化元计划生成器。具体来说，通过对比高质量和低质量的元计划对（通过蒙特卡洛采样生成），应用直接偏好优化（Direct Preference Optimization, DPO）来训练元计划生成器，使其生成更高质量的元计划。

MPO框架的优势

明确指导：MPO框架通过元计划为代理提供明确的高层次指导，有助于减少规划幻觉的发生。
持续优化：基于代理任务执行的反馈，MPO框架能够持续优化元计划，提高其质量。
即插即用：训练好的元计划生成器可以作为即插即用的组件，为不同的代理生成高质量的元计划，而无需为每个新代理重新训练。

四、实验与结果

实验设置

数据集：实验在两个代表性数据集上进行：ScienceWorld（用于文本科学实验任务）和ALFWorld（用于实体家务任务）。这两个数据集都包含可见和未见场景的测试集，以评估元计划的泛化能力。
实现细节：使用Llama-3.1-8B-Instruct模型作为元计划生成器的基础模型。在SFT初始化阶段，使用批量大小为32、学习率为1e-5的余弦调度器进行3个训练周期。在DPO训练阶段，设置元计划生成器为每个任务生成5个元计划，并使用vLLM加速生成过程。
基线方法：与多种基线方法进行比较，包括不使用显式指导的方法、使用显式指导但需要重新训练的方法等。

实验结果

性能提升：实验结果表明，融入MPO优化后的元计划能够显著提高代理在不同任务和框架下的性能。特别是，在LLama-3.1-8B-Instruct基础模型上，性能提升最高可达51.8%。
泛化能力：在未见场景的测试集上，MPO也表现出色，显著提高了代理的成功率。例如，在ALFWorld的未见场景测试集上，GPT-4o的成功率从83.6%提高到93.3%。
消融实验：消融实验结果表明，MPO优化后的元计划生成器在性能上优于其他训练方法（如SFT）。此外，将元计划插入到任务指令中的位置对代理性能有显著影响，插入到任务指令中的效果最佳。