资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

近期爆火的AI Agent，运行原理全解析

创作时间:

作者:

@小白创作中心

近期爆火的AI Agent，运行原理全解析

引用

来源

https://cloud.tencent.com/developer/article/2492863

AI Agent（智能体）是一种应用了大模型（LLM）能力的Agent，由LLM、Planning（规划）、Memory（记忆）和Tools（工具）等几部分组成。它具有自主决策和行动能力，可以理解并适应复杂环境，根据目标，自主思考、制定计划并执行相应任务。

随着AI技术的日益普及，未来五年内我们将不再使用不同的应用程序来完成不同的任务，相反只需用日常用语告诉你的手机或电脑想要做什么，它们就能够处理你的请求。在不远的将来，任何上网的人都将能够拥有一个由人工智能驱动的个人助理，也就是所谓的“AI Agent”。

AI Agent的概念

AI Agent是一种应用了大模型（LLM）能力的Agent，也被称为智能体。它由LLM、Planning（规划）、Memory（记忆）和Tools（工具）等几部分组成。其中，LLM是核心大脑，Memory、Planning Skills以及Tool Use等则是Agents系统实现的三个关键组件。

与大型语言模型（LLM）在像ChatGPT这样的工具中“通常”的使用方式不同，Agent拥有复杂的工作流程，模型本质上可以自我对话，而无需人类驱动每一部分的交互。

AI Agent具有自主决策和行动能力，可以理解并适应复杂环境，根据目标，自主思考、制定计划并执行相应任务。相较于Copilot的工具型辅助能力，Agent更注重对环境的实时感知和判断，更像人类一样形成独立的决策和行动方案。

IDC调研显示，Agent被普遍认为是AI应用发展的趋势性方向，50%的企业已经在某项工作中进行了AI Agent的试点，另有34%的企业正在制定AI Agent的应用计划，主要应用于智能终端、智能座舱、汽车自动驾驶、工业机器人和人形机器人等领域。

AI Agent的潜力与优势

比尔·盖茨认为AI Agent将成为下一个平台，未来五年内人们将通过日常用语与AI Agent交流，完成各种任务。Meta创始人扎克伯格也曾表示，看到了“以有用、且有意义的方式，向数十亿人介绍AI Agents的机会”。

AI Agent是一种人工智能技术，它具有巨大的潜力和优势，可以帮助人们解决各种问题和任务。以下是AI Agent的一些主要优势和潜在应用：

自动化
AI Agent可以自动执行各种任务，从而节省时间和提高效率。它可以处理重复性的任务，如数据输入、客户服务和订单处理等，从而释放人力资源，使人们能够专注于更有价值的工作。
智能决策
AI Agent可以使用数据和算法来做出更明智的决策。它可以分析市场趋势、客户行为和竞争对手，从而帮助企业制定更有效的战略和决策。
个性化服务
AI Agent可以根据客户的偏好和行为来提供个性化的服务。它可以通过分析客户数据来了解客户的需求和喜好，从而提供更符合客户需求的产品和服务。
高用户满意度
AI Agent可以提供24/7的客户服务，从而提高客户满意度。它可以快速响应客户的问题和请求，并提供准确的信息和解决方案。
创新
AI Agent可以帮助企业探索新的业务模式和创新解决方案。它可以分析市场趋势和技术发展，从而帮助企业发现新的机会和创新点。

AI Agent的基本框架

OpenAI将AI Agent定义为：以大语言模型为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。

AI Agent基本框架如下图：

它包括以下几个核心模块：

记忆（Memory）
记忆模块负责存储信息，包括过去的交互、学习到的知识，甚至是临时的任务信息。对于一个智能体来说，有效的记忆机制能够保障它在面对新的或复杂的情况时，调用以往的经验和知识。

例如，一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容，从而提供更个性化和连贯的交流体验。

它分为短期记忆和长期记忆：

a. 短期记忆，所有的上下文学习都是利用短期记忆来学习；
b. 长期记忆，这为智能体提供了长时间保留和回忆。

规划（Planning）
规划模块具有事前规划和事后反思两个阶段。

a.在事前规划阶段，这里涉及对未来行动的预测和决策制定，如执行复杂任务时，智能体将大目标分解为更小的、可管理的子目标，从而能够高效地规划一系列步骤或行动，以达到预期结果。

b.在事后反思阶段，智能体具有检查和改进制定计划中不足之处的能力，反思错误不足并吸取经验教训进行完善，形成和加入长期记忆，帮助智能体之后规避错误、更新其对世界的认知。

使用工具（Tool use）
工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部API来获取模型权重中缺失的额外信息，包括当前信息、代码执行能力、对专有信息源的访问等，以此来补足LLM自身的弱项。

例如LLM的训练数据不是实时更新的，这时可以使用工具访问互联网来获取最新信息，或者使用特定软件来分析大量数据。

现在市场上已经存在大量数字化、智能化的工具，智能体使用工具比人类更为顺手和高效，通过调用不同的API或工具，完成复杂任务和输出高质量结果，这种使用工具的方式也代表了智能体的一个重要特点和优势。

行动（Action）
行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

除了以上四个核心模块之外，一个AI Agent的良好运行离不开LLM、提示词（Prompt）以及知识库（Knowledge）。

LLM
AI Agent的核心计算引擎是一个大语言模型。LLM在海量数据集上进行训练，以理解文本数据并从中推理。
提示词（Prompt）
提示词是向大语言模型（LLM）提供关于Agent的目标、行为与计划的信息阐述。建议从角色、技能、插件、知识库等层面，分层次进行描述，这样能让提示词（Prompt）更完善。

它分为通用提示词和特定提示词：

a.通用提示词（General prompt）：对Agent的角色与行为予以说明。
b.特定提示词（Specific prompt）：将特定任务的目标传达给Agent。

知识库（Knowledge）
没有该领域的知识，代理就无法解决甚至理解任务。因此，要么必须对LLM进行微调以获得知识，要么我们可以创建一个工具来从数据库中提取知识。

总的来说，以上各个模块相互配合使Agent能够在更广泛的情境中采取行动和作出决策，以更智能、更高效的方式执行复杂任务。

应用示例

示例Agent使用Langchain框架创建，“wikipedia”工具用于从互联网中提取知识，“llm-math”用于数值计算。

// Large language model
llm = AzureChatOpenAI()
// Tool integration
tools = load_tools(['wikipedia', 'llm-math'], llm=llm)
// Initialization of the agent
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, 
                         verbose=True, handle_parsing_errors=True)
                         
// Run the agent with a prompt
result = agent.run('What is the average age of a dog? Multiply the age by 3')