AI Agent产业全景:框架、平台与商业化路径全解析
AI Agent产业全景:框架、平台与商业化路径全解析
AI Agent(智能体)是当前人工智能领域的重要研究方向,它结合了大语言模型的自然语言理解、内容生成和逻辑推理能力,能够感知环境、做出决策并采取行动。本文将深入探讨AI Agent的发展现状、行业结构与未来趋势,帮助读者全面了解这一前沿技术领域。
AI Agent 的基本概念
Agent 这一概念源自哲学,指的是具有自主性、能够行使意志和做出选择的实体。在计算机科学领域,Agent 被用来指代整个人工智能系统,即能够感知周围环境、做出决策并采取行动的计算实体。AI Agent 由大语言模型驱动,能够将目标自动分解成子任务,并调用相应工具来完成。这种应用框架将大模型的核心能力拓展到具体场景中,辅以感知与行动技术,展现出端到端解决问题的潜力,因此被认为是大模型落地的重要模式。OpenAI 在 2023 年 11 月推出的 Assistant API 以及后续的 GPTs 进一步推动了 Agent 热潮的兴起。
关于 Agent 的基本共识是将其视为一种能够感知环境、自主决策并执行复杂任务的智能实体。现阶段的 Agent 主要以大语言模型(LLM)为核心驱动力,关键模块包括记忆、规划和工具能力。然而,目前所见的 "Agent" 与理想中的目标仍有较大差距,大多只是实现了部分功能,或者说是具有 Agent 思想的方案。这是 Agent 从理念到落地的必经阶段。
发展现状
在发展现状方面,AI Agent 大致呈现出两种发展方向:
- 功能性方向:侧重于实现类似人类的功能性部分,如协同办公领域的钉钉 AI 助理等。
- 社会性方向:侧重于实现类似人类的社会性部分,例如 character.ai,允许用户设计个性化 AI Chatbot 并与之互动,包括与名人互动或进行角色扮演等。
目前市场上的 AI Agent 主要有两类:
- Copilot(副驾驶/助手):在帮助用户解决问题时起辅助作用,例如 GitHub Copilot 是帮助程序员编程的助手。
- Agent(智能体):更像一个主驾驶,能够根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。
在具体商业化形式上,目前市场上已有的 AI Agent 可分为如下几类:
垂直领域 Agent 产品:适用于特定任务或面向某个垂直行业的 AI Agent,关键在于领域数据和行业 know-how。例如,法律领域的 AI Agent CoCounsel,本身是法律领域非常资深的行业参与者,储备了丰富的垂直领域数据。
通用助理类 AI Agent:适用多场景,包括个人办公和生活等,大多基于已有的平台或操作系统存在,如 Windows 的助理功能、钉钉的 AI 助理等。
AI Agents 应用开发平台:包括 Agents 托管和聚合平台,如字节的扣子,这类平台同时具有 PGC 和 UGC 的性质,更多的用户是个人。还有一种更聚焦帮助企业低门槛构建和义务结合的 Agents 平台,这类 Agents+workflow 平台更专注企业的工作流程和可用性,如 Voiceflow 可帮助企业客户快速创建一个官网的 AI 客服助手。
基于 LLM 的 Agent 框架
Agent 框架旨在提供一套方法和工具,使开发者能够更高效地构建具有具体功能的智能体。由于大模型的能力边界仍在不断拓展,Agent 的形态和应用场景将长期处于探索阶段,有效的可复用框架尚未定形。各类平台厂商、研究机构与创业企业等相继推出了多个单智能体、多智能体,以及机器人自动化(RPA)智能体等框架项目。从实际调研和行业反馈来看,这些框架项目总体思路遵循 "Agent=LLM+记忆+规划+工具" 的典型结构,探索了多个场景的实现方法,但大多处于概念验证或产品 demo 阶段。常见问题包括项目文档不够完善、复用效果不稳定、任务拆解过细导致调用模型成本过高,以及推理能力不足等。
- 多智能体框架发布为主:主要解决单智能体视角不足、能多工作流并行、让推理过程更加显性可靠,以及兼容多模态数据等问题。其中,AutoGen 项目文档完整,有一定通用性和较好的复用能力,是目前最热的解决问题型框架。
- 企业 RPA 引入 Agent 架构:将 RPA(机器人流程自动化)作为 Agent 的工具模块,让 Agent 参与到企业营销、生产管理与运营的自动化操作中,具备在企业落地的前景。例如,ProAgent 项目通过实验,验证了大模型智能体在自动化中的可行性与潜力。
- 用户界面 Agent 框架成热点:Agent 将成为端侧用户界面的重要入口,已初步形成共识。现阶段相关框架项目主要模拟人进行界面自动化操作,能根据目标要求,自主调用 APP 来完成目标任务,如腾讯 AppAgent、阿里 MobileAgent 等项目。未来系统级别的 Agent 有望直接操作 App 或者子 Agent,在 PC、手机、自动驾驶领域预计有广泛的应用场景。
AI Agent 构建与开发平台
由于 Agent 的框架形态尚未成熟,Agent 平台同样处于早期阶段。目前在具备明确工作流或有比较标准程序(SOP)的相对封闭场景中,Agent 有开发和工程化的探索空间;而面对需要 Agent 自主决策与工作流编排的开放场景,尚未见到有效方案。即便是热门平台,在 API 生态、工作流框架复用、组合支持方面都不完善。
Agent 平台可以简单划分为两大类:
- 基于知识库和数据库的聊天机器人类(Chatbot)简单构建平台
- 解决复杂问题的、有多工作流编排的复杂 Agent 开发平台
OpenAI 的 GPTs 属于前者。具体根据面对不同的对象、流程、构建代码的复杂程度等角度,可以进一步细分为以下几类:
面向公众和非开发人员的无/低代码构建平台:主要是 "类 GPTs" 平台,提供标准化的界面和构建流程,以基于知识库的聊天机器人(chatbot)开发为主,不太涉及参数设置,即简单的 agent 构建平台。比如字节的扣子平台(国内版),定位下一代 AI 聊天机器人构建平台。
面向开发者的平台:基于模型托管的综合开发平台也可以属于此类。平台帮助开发者调用各类 API、第三方库,以及代码嵌入和参数设置等,实现 Agent 流程及调优。从行业反馈来看,目前 Coze 海外版等功能较为完善,大厂平台多数也具备开发支持能力,比如百度灵境矩阵的全代码版等。另外,阿里、亚马逊等模型托管平台,以 Agent 框架支持开发者调用各类 AI 模型开发应用,并提供向量数据库等 agent 基础模块组件。总体上,即使是开发平台,低代码趋势非常明显,常规代码逐步由大模型来完成。
企业级开发平台:专注于企业工作流程的智能化,以原 RPA 厂商为主,他们将基于 LLM 的 AI Agent 思想加入到自动化平台,如实在智能 TARS-RPA-Agent,壹沓科技 "数字员工团队" CubeAgent,国外超自动化厂商 Torq 等。新兴厂商澜码科技的 AskXbot 平台,以及 360 的 "大模型 + 企业知识库 + Agent" 的解决方案等,也有项目落地。
行业结构与趋势分析
基于以上的梳理,我们可以把 Agent 行业结构划分为四层,其中运营层包括 Agent 组件厂商与各类运营集成平台。模块组件有代表智能模块的大语言模型,记忆模块以向量数据库厂商为主,以及各类插件工具提供商、安全与通信协议等。运营平台除了 AI 模型托管平台、GitHub 等 Agent 框架发布平台外,新出现的 Agent 工具集成平台(如 AgentLego)、类似 E2B 的 Agent 专属云环境和沙盒环境平台也可划入该层。其余三层上文已有分析,值得关注的是 NexusGPT、Relevance AI 等的数字员工 Agent 训练提供平台,他们的目标是将 Agent 集成到现有企业工作流程中,或者协助打造 Agent 赋能的超级个体,使个体能拥有自己的 AI 团队与自动化任务工作流。
对于 Agent 的下一步走向,从短期内有效发展的角度,重点要解决以下几个问题:
- 丰富通用工作流与场景工作流:由于对 LLM 推理与规划能力的认知仍有待探索,明确的工作流实际是 Agent 行动能力的关键部分,比如通用框架中的多 agent 讨论工作流、企业业务场景典型工作流等。即先有优化后的标准流程,才能自动化、智能化,而不是反过来。
- 深耕专属数据与行业知识形成积累:产业大概率会从垂直领域先进行商业化尝试,凭借在垂直领域的 know-how 和数据积累,在垂直领域深耕的应用厂商推出 Agent 的速度会更快,让 Agent 成为真正的知识专家,才有可能形成可持续的、复杂的智能服务。
- 平台能力的提升:重点是工作流复用、工具丰富度、组合能力,以及 Agent 作为 API 的互相调用能力等,因为多 Agent 协同完成任务会成为常规要求。操作系统厂商可能率先实现关于通过自然语言指令操作应用自动完成任务的想法,像是微软、谷歌本身生态搭建的比较好,可以影响一些重点的第三方应用。
- 平台生态与 Agent 商业模式建设探索:2C 平台方面,目前平台、应用创建者、API 提供者、消费者之间尚未形成明确的商业关系,大多处于免费阶段,这不符合 AI 时代的算力成本特点,难以长久,2B 最大的问题同样是缺乏经济可行的方案。OpenAI、DeepMind 等具有早期技术积累的厂商,预计对行业引领甚至标准产生较大影响,比如 OpenAI 去年 11 月 DevDay 上发布了定义 AI Agent 的 API 和开发框架 Assistants API。
总体上,预计 Agent 整体产业发展是渐进式而非爆发性的,主要依赖大模型能力提升的进度。2024 年 Agent 在游戏,尤其是多智能体游戏,以及代码编程、有标准化作业流程的任务环节,能得到实际应用的空间相对较大。
从更长时间的维度去看,AI Agent 体现了人类对 AI 最本质的构想,被认为是 AGI(通用人工智能)阶段的重要应用方向,未来的 AI Agent 将会更具有自主性。
从用户角度来看,AI Agent 的发展也会带来更多 "超级个体" 的出现。基于 Agent 与其他超级个体建立更为智能化与自动化的协作关系,未来 Agents 之间能自动协作打造一个虚拟的世界,使得置身于世界上各个角落的人们共处其中进行各类协作,通过自然语言驱动共同开发游戏、创作艺术、发展教育、研发设计、解决医学疑难问题等。
此外,AI Agent 正在促使 AI 基础设施化,平台会成为重要载体。一方面,基于本地构建 Agent 的挑战性,将 Agent 作为一种服务来提供将越来越流行,即 Agent 即服务(AaaS),可以为用户提供灵活性和按需服务;举例来说:允许用户通过 API 访问和使用云端的 AI Agent。这些 Agents 可以执行各种任务和操作,如数据处理、自动化任务、自然语言处理等,而无需用户在本地部署或管理。其中 Tiny Fish、Reworkd、basepilot、induced、Superagent、Browse AI,提供 UI 自动化服务,能够自动执行用户界面相关的任务,如数据抓取、自动填表、用户操作模拟等,模拟人工操作,提高效率和准确性。
另一方面,后续大量 Agents 会涌现出来,需要新一代统一 UI 界面来构建现实与虚拟的层叠生态结构,建立人与智能体、智能体与智能体的联接,变革既有的关系与结构。