资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

PEER多智能体框架优化领域特定任务

创作时间:

作者:

@小白创作中心

PEER多智能体框架优化领域特定任务

引用

CSDN

https://blog.csdn.net/weixin_44292902/article/details/143591110

领域特定应用对人工智能模型的性能、成本和数据隐私提出了更高的要求。尤其是像GPT-4这样的先进大型语言模型（LLMs），虽然在复杂任务处理上展现出巨大潜力，但在实际部署中却面临着性能、成本和数据隐私之间的艰难抉择。为了解决这一问题，蚂蚁集团的研究人员提出了PEER（Plan, Execute, Express, Review）多智能体框架，旨在通过精确的问题分解、先进的信息检索、全面的总结和严格的自我评估来系统化领域特定任务。

PEER多智能体框架

PEER中的四个智能体角色

Plan（计划）智能体：该智能体使用模型从用户的领域特定（例如金融）查询中生成多个相关子问题。这些子问题作为解释框架，将原始查询分解为具体且可操作的标准，并扩展为全面分析的基础。
Execute（执行）智能体：该智能体为“Plan”智能体识别的每个子问题收集信息。使用这些子问题作为搜索标准，它从新闻、领域特定（例如金融）数据、报告和文章中找到相关信息，增强了准确性、效率和全面性。这些信息构成了解释领域事件和回答问题的基础。
Express（表达）智能体：该智能体综合收集的信息，执行全面的大模型推理，形成最终结论。它强调整合性推理，并提供符合用户需求的专业描述。
Review（审查）智能体：该智能体评估“Express”智能体的答案是否满足预设标准。如果满意，则提交最终答案；如果不满意，则提供修改建议，并启动另一轮PEER迭代，通过反馈提高答案质量。

PEER的循环工作机制

PEER多智能体合作框架的强大推理和分析能力源于其高效的任务分配、合作以及由“Review”智能体提供的反馈循环和自我优化。这确保了答案不断向最优解改进。如果答案未满足用户需求，“Review”智能体会为“Plan”、“Execute”或“Express”智能体提出修改建议。相关智能体随后调整其流程以更好地满足期望。对于某些简单任务，可以跳过PEER过程中的一个或多个智能体以简化程序。对于复杂任务，可以使用嵌套模式，设计每个智能体执行独立的PEER过程以增强整体性能。

Figure 1流程图中，用户的查询“为什么巴菲特要出售比亚迪股票？”促使“Plan”智能体生成四个相关子问题。然后“Execute”智能体收集信息，包括比亚迪的财务数据和专家意见。“Express”智能体综合出一个全面的答案，由“Review”智能体评估，如果需要，提出修改建议。

PEER智能体调优方法

监督式微调和拒绝采样

监督式微调通常采用交叉熵损失函数：

其中N是训练样本的数量，C是类别数，

是地面真实一键编码向量，

是类别j的预测概率。研究者使用一个稳健的模型生成离线训练数据集，然后由人工注释者进行细化和验证以确保质量。拒绝采样，如LLaMA2中所用，涉及从预训练模型生成样本，并基于质量标准进行过滤，只保留高质量样本。与直接的离线监督式微调（SFT）不同，拒绝采样在人工注释前自动进行初步过滤，以减少低质量样本。在迭代训练过程中，拒绝采样提高了离线数据集训练后的性能。

直接偏好优化

直接偏好优化（DPO）作为RLHF的高效替代方案出现，消除了对单独奖励模型的需求。DPO的损失函数定义如下：

其中

是正在优化的语言模型，

指的是经过SFT后的模型（）。缩放因子β衡量排名结果中的错误，并考虑KL约束。在传统的/离线的直接偏好优化（DPO）中，模型是使用给定的偏好数据（）∼D进行优化的，其中数据集生成模型和优化模型不是同一个。

带AI反馈的迭代学习

在优化DPO模型时，离线偏好数据集和离策略更新可能导致分布外（OOD）查询的泛化问题。这些问题可以通过纳入在线偏好数据集和使用在线策略学习方法来缓解。研究者遵循了Xiong等人（2024年）的实验设置，在线设置中使用批量大小m。该方法整合了LLM-as-a-Judge方法进行实时反馈，以逐步改进模型。算法1概述了从初始数据集开始的迭代训练过程。智能体对每个批次进行迭代处理，包括模型评估、数据生成和细化。它为每个输入生成多个候选响应，使用奖励模型（GPT-4o）选择最优响应并与真实情况比较。如果模型生成的响应超过了质量阈值，它将替换原始训练样本。对于DPO，排名最低的响应被识别为负面例子。然后使用更新后的数据集通过SFT或DPO技术细化模型。经过多次迭代后，算法根据预定义的指标输出表现最佳的模型变体。这种迭代过程持续增强响应质量，创造了一个自我完善训练范式，逐步提高模型性能。

Figure 2初始模型0在离线数据上进行训练。然后，该模型生成两组预测：一组用于创建下一次迭代的训练数据（上图），另一组用于提供当前迭代的评估结果（下图）。这个循环在随后的训练阶段中重复进行。

实验

数据集

数据集分布：PEER框架的主要应用场景是解释和分析领域事件和问题，因此实验主要在金融问答数据集上测试和比较PEER的性能。研究人员从业务场景中抽取了数百个专业问题，并将其分为九个类别。数据集分布详情见表4。

基线模型

实验使用了两个基础模型：GPT-3.5 turbo (16k) 和 GPT-4o，并使用Python执行。为了评估“Review”智能体在PEER框架中的影响，设计了有无“Review”智能体的自消融实验。对于BabyAGI和带有“Review”的PEER，都设置了最多5轮的迭代，并使用Google进行信息检索。在GPT-3.5 turbo (16k)下，召回了前2个搜索结果，令牌限制为13,000。对于GPT-4o，参数增加到前6个结果和125,000个令牌，利用模型的增强性能。

评估指标

评估方法：尽管GPT-4广泛用于评估，但其置信度可能受到位置和冗余性偏见的影响。为了减轻这些问题，研究人员基于GPT-4开发了两种评估方法：

GPT-4评分：GPT-4在不同维度上对所有答案进行评分，计算每个维度的平均分数。
GPT-4选择最佳答案：GPT-4在PEER和对照组提供的答案之间选择最佳答案。这种评估使用胜率作为指标，选择标准在表7中概述。

分析

在与BabyAGI的比较实验中，表1和图3显示，无论使用哪种基础模型，PEER在平均分数和胜率上都一致超越BabyAGI。PEER在完整性、相关性、逻辑性、结构性和全面性等维度上表现出色，通常超过一个点的差距。特别是在GPT-3.5 turbo (16k)模型下，PEER的胜率达到83%，即使在GPT-4o模型下也保持了81%的胜率。这归因于PEER同时处理多个问题并综合响应的策略，与BabyAGI每轮处理一个问题的方法形成对比。

在消融实验中，表1和图3显示，在GPT-3.5 turbo (16k)模型下，PEER在大多数维度上得分更高，胜率达到64%。然而，在GPT-4o模型下，“Review”智能体的优势减弱，因为GPT-4o在处理、理解和表达方面本身就很出色。“Plan”、“Execute”和“Express”智能体的初始输出已经足够满足要求，使得进一步的修改影响较小。因此，PEER的胜率下降到46%，两个框架之间的分数差异也随着GPT-4o模型相比GPT-3.5 turbo (16k)模型而缩小。这表明，当基础模型的性能不够强大时，“Review”智能体可以显著提高整体质量。

调优实验

数据集：实验分为两类：一类关注单个智能体，另一类关注整个工作流程。数据集大小在表3中提供，数据已经开源。单个智能体的测试集来源于表4中详细评估集的中间结果，而整个工作流程的测试集直接对应于表4。

实验设置：与前面一样，评估单个智能体和整个工作流程也采用了LLM-as-a-Judge方法。具体来说，对于单个智能体，使用评分和成对比较来评估每次迭代的性能。对于整个工作流程，使用GPT-4o来评分并比较GPT-4 + PEER、使用离线数据的SFT结果，以及通过迭代训练获得的最佳模型。

分析：图4展示了三个参与规划、执行和表达的智能体在不同迭代中的胜率、平局率和败率。DPO和SFT每次都显示出进步。例如，对于规划智能体，SFT的第一次迭代胜率为43.15%，第二次迭代略有提高至43.21%。DPO显示出比SFT更快的收敛速度。在第二次迭代中，SFT在三个智能体中的胜率分别为43.21%、41.34%和53.33%。相比之下，DPO的胜率为23.17%、20.74%和27.17%，低于相应的平局率56.61%、60.60%和57.61%。

表2展示了端到端（整个工作流程）评估的结果。实验在三个模型上进行：QWEN1.5-14B（sft-offline）、QWEN1.5-14B（iter-best-model）和GPT-4，所有这些都与PEER框架结合使用。QWEN1.5-14B（sft-offline）指的是使用离线SFT数据集微调的QWEN1.5模型，而QWEN1.5-14B（iter-best-model）表示通过迭代训练获得的最佳模型。可以观察到，经过迭代训练的QWEN1.5-14B模型在所有指标上都比单轮SFT模型有所改进。当与PEER结合时，它最终达到了GPT-4 + PEER性能的95.0%。

参考文献

项目地址：https://github.com/alipay/agentUniverse
论文地址：https://arxiv.org/pdf/2407.06985