AI Agents: 如何构建数字员工
AI Agents: 如何构建数字员工
AI Agents是构建智能系统的一种新方式。利用LLMs,将自动化流程和知识融入到工具中,这些工具不仅仅遵循命令,还可以推理、做出决策、采取行动,甚至随着时间的推移进行学习。
多步骤流程:hebbia.ai
与遵循一组固定指令的传统程序不同,agent是一种新型软件,使用LLMs和认知来弄清楚需要做什么、如何做,然后完成它,一切都靠它们自己。
行业内是这么解释的:
- LangChain:……一个使用LLM来决定应用程序控制流程的系统。”
(LangChain 的 Harrison Chase 写了一篇文章“代理是什么意思?” ) - NVIDIA:......一个可以使用LLM来推理问题、制定解决问题的计划并在一组工具的帮助下执行该计划的系统。
- AWS:……一种软件程序,可以与其环境交互、收集数据并使用数据执行自主任务以实现预定目标。
LLMs已经从最初的仅能生成文本和推理,到现在发展到可以做更多事情。现在可以与其他LLMs一起工作(例如,编排),采取实际行动(例如,调用工具 API),并更长时间地跟踪上下文(例如,更大的上下文窗口)。LLMs现在正在从被动响应者转变为智能系统,可以进入传统上为人类保留的角色,从客户服务和招聘到法律和建筑等复杂的职业。
AI Agent的核心组件
让我们探索AI Agent的核心组件:
Perception 洞察力
Agent需要从用户或环境获取输入。输入可以是聊天文本、语音呼叫、图像或 API 调用,以及用于与代理交互的任何内容。这些数据对于智能体理解其周围环境和背景至关重要。
Brain 大脑
人工智能代理的“大脑”—— LLM ——负责推理、规划和适应。
- 推理涉及分析输入、分解复杂的任务以及生成潜在的解决方案。
- 规划允许代理随着时间的推移对行动进行排序,确保任务高效且有效地完成。
- 适应性,使代理能够响应动态环境(例如,对话)或变化的信息。
示例:……捕获航班请求后,代理会识别诸如查找出境和回程航班之类的任务,并定义需要哪些步骤和操作来帮助客户根据自己的喜好预订航班等……
Memory 记忆
AI agent中的记忆有两种形式:
- 短期记忆是基于会话的,依靠LLM的上下文窗口来跟踪最近的交互并确保一致的响应;
- 长期记忆通常存储在外部数据库中,允许代理访问和交叉引用过去的对话或一段时间内的用户偏好。
示例:……旅行社在会话期间跟踪当前的日期和舱位选择,同时使用长期记忆来回忆过去的偏好,例如首选航空公司或常旅客详细信息……
Knowledge 知识
除了记忆之外,agent还可以利用公司特定的知识库,例如常见问题解答、文档或标准操作程序。这些知识通常存储在文档和向量数据库中,检索它以改进推理和决策。
示例:……客户向旅行社询问行李政策和升舱选项,旅行社会检索公司特定的政策,以确保其能够正确解决这些用户查询……
Actions 行动
LLMs可以决定何时以及如何使用 API 等工具来查询其他数据、更新系统或执行实际操作。这种在正确的时间动态选择正确的工具的能力使代理能够灵活高效地操作,与现有系统无缝集成以交付结果。
示例:……代理可以调用航空公司 API 来实时获取航班选项、价格和座位可用性。用户批准后,它会调用 API 来完成预订,以购买并通过电子邮件发送详细行程。
如何设计Agent?
通过定义代理的角色、职责、工具、交互和学习路径,我们确保其高效运行并与组织目标保持一致。
以下是设计代理的每个步骤如何与招聘并行:
1、定义代理的角色和目标
agent必须有一个角色和目标——它正在解决什么问题以及它为什么存在。
工作描述:是客户服务代理、数据研究员吗?代理要解决什么问题?它的用户是谁?成功是什么样的?
提示:将角色与可衡量的结果联系起来,并定期重新审视,以确保它随着业务需求而发展。
2、任务和计划概要
定义agent的任务和工作流程。
agent需要做什么以及如何做:剧本或例程。定义分步流程是大多数迭代发生的地方,定义关键任务是什么?可能会出现哪些边缘情况?有必须遵守的规则吗?
提示:在复杂性和一致性之间找到平衡:流程越复杂或代理必须执行的任务越多,失败的可能性就越大。
以下是 Google Agents 中目标和指令的定义方式:
3、定义记忆
记忆可以让agent保持一致并学习。
短期记忆跟踪最近的交互,而长期记忆将历史细节存储在外部数据库中:在会话期间应该保留哪些信息?哪些数据必须长期保留?
提示:首先定义可增加最大价值的数据(例如经常访问的客户详细信息),然后逐步构建内存系统,确保可扩展性,而不会压垮代理。
4、配备知识
与员工需要访问手册或公司文档类似,客服人员需要常见问题解答或产品目录等知识才能提供准确的答复。
agent需要哪些知识来源?这些知识将如何保持最新?什么格式可以确保轻松检索。
提示:使用矢量数据库或 RAG 技术等工具并安排更新,以确保知识保持相关性。
5、配备工具
工具对于agent来说就像软件和系统对于员工一样——支持行动。
用户调用 API 来查询数据、更新记录或预订会议。需要哪些API?它们可用还是需要开发?哪些权限可确保安全使用?
提示:定义特定用途的工具并实施基于角色的权限,就像为员工提供正确的软件和访问级别以高效、安全地完成工作一样。
LLMs决定何时以及如何调用这些 API,因此迭代这些工具并将其包含到任务定义中非常重要。
以下是 OpenAI 如何定义LLMs调用工具的方式:
如何设计Agent 团队(多Agent)?
复杂的问题很难靠一个人单独解决,agent也是如此。一组专业的agent一起协作可以更有效地处理任务,而不是一个大型的全能代理。
例如,一个agent可能会收集数据,另一个agent可能会分析数据,第三个agent可能会生成解决方案,第四个agent可能会完善这些解决方案。这些agent协同工作,根据需要相互分配任务,就像团队中的同事一样。
随着复杂性的增加,管理和扩展agent变得更具挑战性。包括agent拥有太多工具,并且在使用哪一种工具方面做出了错误的决定,难以管理过于复杂的环境,或者需要规划者、研究员或数学专家等专门角色来处理特定任务。
这种模块化的“多心”方法降低了复杂性并确保了可靠性。agent还可以委派他们无法处理的任务,通过让各个agent专注于较小的范围来提高整体性能。通过创建合作agent网络,实质上是在构建一支AI数字员工,能够作为一个协调系统解决复杂的问题,就像一支由熟练员工组成的团队一起解决具有挑战性的项目一样。
关键的一步:部署代理
Iterations 迭代
构建有效的代理本质上是迭代的。第一个版本永远不是最终版本。现实世界的条件揭示了边缘情况、隐藏的假设以及开发过程中并不明显的新可能性。
员工通过反馈、评论和工作经验来成长——代理也不例外。通过收集反馈(例如用户评分或错误日志)并合并更新,代理可以随着时间的推移改进其行为和性能。
more 安全、运营等
安全性必须是基础——与员工一样,代理也需要 SSO、基于角色的权限和凭证管理等保障措施,以确保他们只访问必要的内容。护栏、日志记录、审计和凭证轮换对于维持合规性、保护敏感数据和建立信任至关重要。
运营同样重要。正如首席运营官跟踪和优化工作流程一样,代理也需要审计和绩效跟踪工具,以确保他们随着时间的推移保持有效、可靠和适应性强。