AI Agent行业深度研究:通往AGI的核心基础
AI Agent行业深度研究:通往AGI的核心基础
AI Agent是一种能够感知环境、进行决策和执行动作的智能实体,随着大语言模型(LLM)的快速发展,AI Agent在感知、记忆、规划、行动等模块方面的能力均得到了进一步的提升。本文将从AI Agent的定义、发展历程、技术架构、应用场景以及未来发展方向等多个方面进行深入探讨。
AI Agent:通往AGI的核心基础
AI Agent是一种能够感知环境、进行决策和执行动作的智能实体,从发展历程看,经历了用逻辑规则和符号封装知识、快速响应环境、基于强化学习等发展阶段。随着大语言模型(LLM)的快速发展,AI Agent在感知、记忆、规划、行动等模块方面的能力均得到了进一步的提升。
AI Agent的核心能力体现在以下几个方面:
- 连续性:大模型能够对用户的任务指令进行任务拆解,分解为多个步骤,对步骤进行规划排序、连续执行。
- 复杂性:目前大模型只能解决单个任务或简单少数多个任务,无法完成多个复杂任务。
- 多步骤:在执行后续步骤时,能够对任务目标和前序任务随时保持记忆,步骤的规划执行能力要强。
AI Agent的能力体现可以分为以下几个阶段:
- 单一简单任务执行
- 单一复杂任务执行
- 多步骤简单任务执行
- 多步骤复杂任务执行
- 连续多步骤复杂任务执行
这些能力的实现都依赖于大模型能力的提升。Agent能力有望在GPT-4的后续模型中逐步体现出来。另外需要特别注意的是:Agent是一种能力,是AI重构人机交互方式实现的工具。Agent能力既可以通过AI重构硬件来实现,也可以通过AI改造软件来体现(软件的自动化执行)。
LLM推动AI Agent进入新阶段
AI Agent经历了以下几个发展阶段:
- 符号Agent:采用逻辑规则和符号表示来封装知识并促进推理过程,典型代表为基于知识的专家系统。
- 反应Agent:主要关注Agent与其环境之间的交互,强调快速和实时的响应,设计时优先考虑直接的输入输出映射。
- 基于强化学习的代理:主要关注如何使Agent通过与环境的互动进行学习,典型代表如AlphaGo。
- 具有迁移学习和元学习的Agent:引入迁移学习实现不同任务之间知识的共享和迁移,通过元学习使Agent学习如何学习。
- 基于大型语言模型(LLM)的代理:将LLM作为大脑的主要组成部分或Agent的控制器,并通过多模态感知和工具利用等策略扩展其感知和行动空间,通过思维链(CoT)和问题分解等技术使Agent获得与符号代理相当的推理及规划能力,并且可以通过从反馈中学习和执行新的行动,获得与环境的互动能力。
AI Agent主要由以下五个模块构成:
- 感知:在环境和感知中具有任务规划和观察能力的Agent(感知可类比输入、规划可类比人类规划)。
- 学习:Agent学习(强化学习,类比人类反思)。
- 记忆:记忆(类比存储)。
- 行动:行动(类比输出)。
- 认知和意识:认知和意识(类比控制)。
从作用上看,AI Agent的感知方面更加强调对于多模态信息的获取能力,不局限于数据的输入;认知方面主要用于协调每个Agent AI组件,强调了复杂动态环境中交互式Agent的集成方法的重要性,突出了交互式决策的作用。
AI Agent实现了将人类利用编程解决特定任务的过程进一步的接管,从解决问题的执行环节进一步向思考如何解决问题的规划环节渗透。
AI Agent具备两条能力提升路径:
- 分模块能力突破:相比于LLM支撑的聊天机器人(如ChatGPT),AI Agent在感知模块中具备更加丰富的模态理解能力,在记忆模块中能够结合更加丰富的数据来源,在规划模块中具备更强的规划、反思能力,在行动模块中能够提供更加丰富的输出。
- 系统性优化:AI Agent也有望逐步向通用人工智能过渡。
多路径共同提升Agent整体智能化水平
LLM+Agent是通向通用人工智能(AGI)的路径之一。AI Agent用来描述表现出智能行为并具有自主性、反应性、主动性和社交能力的人工实体,能够使用传感器感知周围环境、做出决策,然后使用执行器采取行动,具备以上特征的Agent是实现AGI的关键一步。
据2023年11月Google DeepMind发布的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》,考虑AGI性能、通用性和自主性级别,AGI的发展可按L0-L5分级。按该分级方法,目前在狭义AI上人类已经实现了在特定的任务上让AI超越人类,但是对于广义的AGI仅实现到L1阶段,典型代表是ChatGPT、Bard和Llama。
从更广义的评判标准看,基于LLM的Agent评估工作还从效用、社会性、价值等角度开展,我们认为当前基于LLM的Agent从能力上看受到LLM能力上限的限制,未来随着Agent的不断升级,有望逐步逼近AGI,具体的路径包括模态丰富、具身智能、多Agent协同、系统优化等。
AI Agent技术逐步落地
基于LLM的Agent产品众多,但各自在自主程度,能力范围上有一定差异。本节选取部分典型案例展开分析,具体包括:
AutoGPT:一个构建在GPT-4基础上的开源Python应用程序,由视频游戏公司Significant Gravitas Ltd的创始人Toran Bruce Richards于2023年3月30日推出,其功能包括从互联网收集信息、存储数据、通过实例生成文本、访问各种网站和平台以及使用LLM执行摘要的能力,常用于市场研究、网站创建、博客写作和创建播客。
卡耐基梅隆大学智能Agent系统:2023年4月发布,具体细节未在文中提及。
Devin:2024年2月发布,具体细节未在文中提及。
AI Agent智能性仍有提升空间
从AI Agent的落地方式看,基于LLM的Agent实践已经取得一定的成果。具体包括:
- 利用LLM较强的文本处理能力,实现了信息检索及工具使用效率的提升;
- 利用LLM的任务分解能力,实现了简单问题的步骤分解与规划;
- 利用LLM的文本生成能力,打造更加自然的人机交互;
- 利用LLM的可调试性,打造能够解决垂直领域任务或具备垂直领域知识体系的应用。
以上能力突破的基础一方面来自于Transformer架构下,LLM能力相比传统NLP方法的效率提升,如更加自然的人机交互、更强的文本处理能力;另一方面则来自于特定数据类型训练赋予LLM的能力,如从任务分解数据训练中得到的任务规划能力、配置特定文件后得到的解决特定领域问题的能力。
LLM Agent自主化、智能性仍存在提升空间。从LLM Agent的实践看,当前的LLM Agent对于执行特定领域的任务已经体现出一定的自主性(如完成科学试验、搜索资料撰写报告等),LLM对于固定范式下解决问题能够实现较好的自动化,但在解决问题的泛化能力方面,当前主要的Agent产品仍距离通用的Agent有一定的差距。主要体现在:
- 任务规划方面:当前Agent主要基于现有的成熟任务流程进行复现,或基于训练数据对任务进行简单的拆分;
- 工具使用方面:当前Agent基本按照人类的部署进行流程化的操作和尝试,工具的使用主要通过调用第三方API进行。
未来随着底层模型能力的提升,AI Agent有望在以下方面实现能力提升:
- 在任务规划方面从基于规则、参数的规划能力逐步向基于实践的反思、迭代进化;
- 在工具使用与选择方面,从基于人类配置的特定工具,向多种工具的选择规划进化,甚至更进一步的创造适用于LLM的工具。
终端厂商:推动人机交互升级
AI+终端:结合安全性+个性化,为Agent落地打下良好基础。垂直数据有助于Agent形成个性化的能力,AI部署于终端有助于实现个性化和安全性的良好结合。以AIPC为例,通过AI能力的本地化部署,使PC拥有持续学习能力、提供个性化并保护用户隐私的服务、配备知识库适应用户需求以及可自然交互。AIPC能够根据用户使用习惯、行为和喜好进行自适应和优化为用户在操作过程中提供更多的个性化建议和支持。AIPC在终端侧进行运算,能够提供更多的情境信息,如用户的移动状态、个人偏好和设备上的多媒体信息。基于终端的本地数据,Agent能够提供更加个性化的服务,本地处理也有助于保障数据的安全性,综上,我们认为终端AI能力的加强有利于Agent落地加速。
从AI Agent到AGI
基础模型能力提升+工作流接入有望加快AI Agent商业化。从Agent的发展看,人类在逐步强化程序的自动化、智能化程度。在AI Agent的尝试中,应用厂商结合深度学习等算法、知识图谱、RPA等技术实现了部分的自动化,其核心是在存量知识的基础上,实现由程序自主解决部分问题。LLM的出现是这一框架下的重要突破,LLM通过预训练吸收知识,以大量参数存储知识,通过Transformer的注意力机制,实现了对存量知识吸收理解效率的进一步提升。在解决问题的过程中,相较于传统的RPA等基于规则的自动化方式,体现出了更强的灵活性。我们认为随着基础模型能力的进一步提升,AI Agent在任务规划中的灵活性、在知识吸收运用的效率方面的上限或将进一步提升。在当前的基础模型能力下,若将AI Agent与工作流进一步结合,在工作流程中嵌入AI Agent实现部分问题的智能+自动化解决,AI Agent实用性或将进一步改善,商业化或进一步加速。
从LLM到AI Agent到AGI。据《On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence》(2022),智能的原则包括简约性、自洽性。其中简约性要求系统通过计算有效的方式来获得紧凑和结构化的表示,自洽性要求自主智能系统通过最小化被观察者和再生者之间的内部差异来寻求最自洽的模型来观察外部世界。我们认LLM以黑盒的方式实现了知识的高效吸收,通过人类对齐实现了自洽性;基于LLM的AI Agent在LLM基础上能够通过工作流方式引入人类对齐实现自洽,通过垂直数据强化特定领域的知识能力;而随着知识压缩的效率的进一步提升(Scaling Laws或白盒大模型等方式),打造闭环系统完成对知识的验证,未来有望逐步实现AGI。