AI Agent深度解析：潜力与挑战并存的智能新世界

创作时间:

作者:

@小白创作中心

AI Agent深度解析：潜力与挑战并存的智能新世界

引用

来源

https://www.53ai.com/news/LargeLanguageModel/2024090948752.html

AI Agent，即人工智能代理，是一种能够感知环境、进行决策和执行动作的智能实体。它基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。本文将深入解析AI Agent的潜力与挑战，探讨其在不同场景中的应用现状。

AI Agent的定义与组成部分

AI Agent是人工智能代理（Artificial Intelligence Agent）的概念，它是一种能够感知环境、进行决策和执行动作的智能实体，通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。

一个更完整的Agent，一定是与环境充分交互的，它包括两部分——一是Agent的部分，二是环境的部分。此刻的Agent就如同物理世界中的「人类」，物理世界就是人类的「外部环境」。

在LLM赋能的自主agent系统中(LLM Agent)，LLM充当agent大脑的角色，并与若干关键组件协作。

规划（planning）

子目标分解：agent将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务。
反思与完善：agent对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量。

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习。
长期记忆：为agent提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现。

工具使用（tool use）

对模型权重丢失的信息，agent学习调用外部API获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等。

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等。

人机协同模式

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合。生成式AI的智能革命演化至今，从人机协同呈现了三种模式：

嵌入模式

用户通过语言交流与AI合作，使用提示词设定目标，AI协助完成任务，比如用户使用生成式AI创作小说、音乐作品、3D内容等。在这种模式下，AI执行命令，人类是决策者和指挥者。

副驾驶模式

人类和AI是合作伙伴，共同参与工作流程。AI提供建议、协助完成工作，比如在软件开发中为程序员编写代码、检测错误或优化性能。AI是知识丰富的合作伙伴，而非简单的工具。

智能体模式

人类设定目标和提供资源，AI独立承担大部分工作，人类监督进程和评估结果。AI体现了自主性和适应性，接近独立行动者，人类扮演监督者和评估者的角色。

智能体模式比嵌入模式和副驾驶模式更高效，可能成为未来人机协同的主要模式。在智能体的人机协同模式下，每个普通个体都有可能成为超级个体，拥有自己的AI团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式。

AI Agent的应用场景

当前，AI Agent已是公认大语言模型落地的有效方式之一，它让更多人看清了大语言模型创业的方向，以及LLM、Agent与已有的行业技术融合应用的前景。目前大语言模型的Agent，在代码生成、数据分析、通用问题解答、科学研究等多个领域内，都有一众开源或闭源项目，可见其火爆程度。

BI（Data Analysis） Agent - 生成式BI

在生成式BI（Data Agent）方面，腾讯云的技术总监分享了txt2SQL的智能问答系统方案设计，整体准确度能达到惊人的99%（纯大模型生成且复杂度不高的SQL准确率大概在80%+）。但其实质上他们的方案主要还是依靠工程能力，并未完全使用大模型的NL2SQL的生成能力，而是结合RAG，通过Query去匹配RAG里的常见的查询问题及对应的SQL示例，然后再基于检索到的SQL去与数据源联通。