问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Agent-FLAN：一种大模型Agent高效微调的数据与方法设计

创作时间:

作者:

@小白创作中心

Agent-FLAN：一种大模型Agent高效微调的数据与方法设计

引用

1

来源

1.

https://www.53ai.com/news/qianyanjishu/902.html

大型语言模型（LLMs）在自然语言处理（NLP）任务中取得了巨大成功，但在作为代理（agent）时，它们的表现远远落后于基于API的模型。如何将代理能力集成到通用LLMs中，成为一个关键且紧迫的问题。

目前开源大型语言模型（LLMs）在一般代理任务中典型的两种幻觉的插图：(a) 格式幻觉和 (b) 行为幻觉。

为了解决上述问题，提出了Agent-FLAN方法，该方法基于三个关键观察结果：代理训练数据与预训练数据分布的差异、LLMs在代理任务所需能力上的不同学习速度、以及现有方法在提升代理能力时引入的幻觉问题。

Agent-FLAN通过以下步骤进行：

将代理训练语料库中的格式遵循和通用推理分离，使微调过程与语言模型的预训练领域（自然对话）保持一致。
明确分解训练数据，根据LLMs的基本能力（如推理、检索、理解、指令遵循）进行数据平衡。
构建Agent-H基准测试，从多个角度评估LLMs的幻觉问题，并精心策划多样化的“负面”训练样本以有效缓解这一问题。

通过将原始的代理语料库与自然对话对齐，能够明确地将代理任务分解为不同的能力，从而实现更细致的数据平衡。

Agent-FLAN在开源的Llama2系列模型上的应用，使其在多个代理评估基准测试中的表现比先前的工作提高了3.5%。此外，Agent-FLAN在扩大模型规模的同时，持续提升了LLMs的代理能力，并对LLMs的一般能力有轻微提升。实验结果表明，Agent-FLAN在减少幻觉问题的同时，能够有效提升模型在代理任务上的性能。

Agent-FLAN在内部保留（Held-In）和外部验证（Held-Out）任务上的比较。为了更好的可视化，性能结果已经与GPT-4的结果进行了标准化。* 表示为了公平比较而重新实现了该方法

在Toolbench和Agent-H数据集上，使用Llama2-7B模型进行的AgentTuning和Agent-FLAN之间的比较研究。(a) ToolBench：得益于能力分解和对“理解”能力的更多关注调整，Agent-FLAN能够跟上给定的长工具信息内容的具体API信息，而AgentTuning因为幻觉而失败。(b) Agent-H：AgentTuning模型展示了无意义的工具使用，而Agent-FLAN直接给出了首选的响应。

更多详细信息请参考原文：
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
https://arxiv.org/pdf/2403.12881.pdf
https://github.com/InternLM/Agent-FLAN

热门推荐

清明节前后几天可以上坟？

清明节前后几天可以上坟？

为什么初一上坟？——传统习俗的多维解读

为什么初一上坟？——传统习俗的多维解读

痛风患者需忌口的蔬菜水果

痛风患者需忌口的蔬菜水果

教育部最新公示的新大学有哪些？附2025年新增本科高校名单

教育部最新公示的新大学有哪些？附2025年新增本科高校名单

国庆出游，边家带你盘点热门旅行地特色风味美食

国庆出游，边家带你盘点热门旅行地特色风味美食

贫血的危害及规范化诊断治疗|2024上海市医学会血液学专科分会科普宣教

贫血的危害及规范化诊断治疗|2024上海市医学会血液学专科分会科普宣教

孕早期可以吃海带吗？孕期吃海带，这些好处你不可不知

孕早期可以吃海带吗？孕期吃海带，这些好处你不可不知

孕妇海带吃多了有什么坏处

孕妇海带吃多了有什么坏处

消费心理学：我们为什么总是买这些东西？

消费心理学：我们为什么总是买这些东西？

偏瘫后膝关节功能障碍康复指南

偏瘫后膝关节功能障碍康复指南

卖二手车需要什么

卖二手车需要什么

扑克牌游戏记牌技巧全攻略：从基础到进阶的完整指南

扑克牌游戏记牌技巧全攻略：从基础到进阶的完整指南

广东农科院作物所开展牛大力和粉葛优良品系繁育与示范栽培

广东农科院作物所开展牛大力和粉葛优良品系繁育与示范栽培

花旗转账教学：美国花旗银行 Citibank 如何汇款？

花旗转账教学：美国花旗银行 Citibank 如何汇款？

银行卡的转账到账时间可以加快吗？

银行卡的转账到账时间可以加快吗？

揭秘袁绍麾下智囊团：三国时期最杰出的谋士是谁？

揭秘袁绍麾下智囊团：三国时期最杰出的谋士是谁？

吃东西咀嚼多少下再咽下才健康？

吃东西咀嚼多少下再咽下才健康？

河豚的毒性分布与安全食用指南

河豚的毒性分布与安全食用指南

夜交藤加合欢皮可以治疗顽固性失眠吗

夜交藤加合欢皮可以治疗顽固性失眠吗

湖南省考考情分析兼备考指导—数资篇

湖南省考考情分析兼备考指导—数资篇

人工智能简历如何写范文

人工智能简历如何写范文

滨海新区开展"滨城有礼文明有你"文明素质提升行动

滨海新区开展"滨城有礼文明有你"文明素质提升行动

甲状腺病人饮食指南：含碘食物摄入全攻略

甲状腺病人饮食指南：含碘食物摄入全攻略

开门就排队！邯郸最火的美食，你尝过哪些？

开门就排队！邯郸最火的美食，你尝过哪些？

驾驶机动车的几种判刑标准

驾驶机动车的几种判刑标准

差点献给拿破仑的作品丨贝多芬：《第三交响曲“英雄”》

差点献给拿破仑的作品丨贝多芬：《第三交响曲“英雄”》

人工智能、机器学习、深度学习和神经网络

人工智能、机器学习、深度学习和神经网络

暖风熏得游人醉，直把杭州作汴州。全诗意思及赏析

暖风熏得游人醉，直把杭州作汴州。全诗意思及赏析

迪拜五大自贸区全面解析：税率、税种及注册条件深度对比

迪拜五大自贸区全面解析：税率、税种及注册条件深度对比

尿酸高能吃鱿鱼吗？医生给出专业建议

尿酸高能吃鱿鱼吗？医生给出专业建议

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号