AI Agent深度解析:潜力与挑战并存的智能新世界
AI Agent深度解析:潜力与挑战并存的智能新世界
AI Agent,即人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。它基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。本文将深入解析AI Agent的潜力与挑战,探讨其在不同场景中的应用现状。
AI Agent的定义与组成部分
AI Agent是人工智能代理(Artificial Intelligence Agent)的概念,它是一种能够感知环境、进行决策和执行动作的智能实体,通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。
一个更完整的Agent,一定是与环境充分交互的,它包括两部分——一是Agent的部分,二是环境的部分。此刻的Agent就如同物理世界中的「人类」,物理世界就是人类的「外部环境」。
在LLM赋能的自主agent系统中(LLM Agent),LLM充当agent大脑的角色,并与若干关键组件协作 。
规划(planning)
- 子目标分解:agent将大任务拆分为更小的可管理的子目标,使得可以有效处理复杂任务。
- 反思与完善:agent对历史动作可以自我批评和自我反思,从错误中学习并在后续步骤里完善,从而改善最终结果的质量。
记忆(Memory)
- 短期记忆:上下文学习即是利用模型的短期记忆学习。
- 长期记忆:为agent提供保留和召回长期信息的能力,通常利用外部向量存储和检索实现。
工具使用(tool use)
- 对模型权重丢失的信息,agent学习调用外部API获取额外信息,包括当前信息、代码执行能力、专有信息源的访问等。
行动(Action)
- 行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。
人机协同模式
基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式AI的智能革命演化至今,从人机协同呈现了三种模式:
嵌入模式
用户通过语言交流与AI合作,使用提示词设定目标,AI协助完成任务,比如用户使用生成式AI创作小说、音乐作品、3D内容等。在这种模式下,AI执行命令,人类是决策者和指挥者。
副驾驶模式
人类和AI是合作伙伴,共同参与工作流程。AI提供建议、协助完成工作,比如在软件开发中为程序员编写代码、检测错误或优化性能。AI是知识丰富的合作伙伴,而非简单的工具。
智能体模式
人类设定目标和提供资源,AI独立承担大部分工作,人类监督进程和评估结果。AI体现了自主性和适应性,接近独立行动者,人类扮演监督者和评估者的角色。
智能体模式比嵌入模式和副驾驶模式更高效,可能成为未来人机协同的主要模式。在智能体的人机协同模式下,每个普通个体都有可能成为超级个体,拥有自己的AI团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式。
AI Agent的应用场景
当前,AI Agent已是公认大语言模型落地的有效方式之一,它让更多人看清了大语言模型创业的方向,以及LLM、Agent与已有的行业技术融合应用的前景。目前大语言模型的Agent,在代码生成、数据分析、通用问题解答、科学研究等多个领域内,都有一众开源或闭源项目,可见其火爆程度。
BI(Data Analysis) Agent - 生成式BI
在生成式BI(Data Agent)方面,腾讯云的技术总监分享了txt2SQL的智能问答系统方案设计,整体准确度能达到惊人的99%(纯大模型生成且复杂度不高的SQL准确率大概在80%+)。但其实质上他们的方案主要还是依靠工程能力,并未完全使用大模型的NL2SQL的生成能力,而是结合RAG,通过Query去匹配RAG里的常见的查询问题及对应的SQL示例,然后再基于检索到的SQL去与数据源联通。
数势科技/金融数字化产品总经理,分享的同类DataAgent产品-swiftAgent,将传统的BI手动全流程产品(GUI)通过大模型进行基于语言的(LUI)模式重构,包括交互的指标问询、智能的洞察归因、分析报告自动生成、指标的全生命周期管理等能力。
网易数帆的大数据解决方案专家分享了网易在Data Agent方面的工作。面对大模型出错的情况,他们核心瞄可信方向,做了很多产品交互上的工作,去保障NL2SQL查询出的数据可信:
- 需求可理解:通过自研NL2SQL专属大模型,针对相关数据相关函数如同比/环比/分组排序等函数进行增强。
- 过程可验证:通过交互界面上以自然语言的方式生成查询的解释,让用户容易去识别模型生成过程的对错,去保障生成过程的可信。
- 用户可干预:基于查询解释,用户可手动在查询结果的查询条件上进行调整查询条件,用确定性的手段获取正确性的结果。
- 结果可运营:通过实时针对结果,进行正误标记反馈持续优化大模型的生成正确性。
Coding Agent
因为前期对Github Copilot、codeGeex、CodeFuse等做过深入的使用体验,核心功能是帮助程序员进行代码生成、代码优化、代码检测等研发辅助提效,场景上核心关注的更多是代码安全性的问题。这里就不做赘述,相关的分享和PPT下载链接如下:
- aiXcoder 代码大模型在企业的应用实践:
https://qcon.infoq.cn/2023/shanghai/presentation/5683 - 基于CodeFuse的下一代研发探索:
https://qcon.infoq.cn/2023/shanghai/presentation/5681 - 大模型落地到代码助手场景的探索实践:
https://qcon.infoq.cn/2023/shanghai/presentation/5690 - 百度大模型驱动下的智能代码助手提效实践:
https://qcon.infoq.cn/2023/shanghai/presentation/5679
基于RAG的知识问答
由于篇幅的关系,RAG相关的大模型应用,将在另外一篇文章中进行详细阐述和分解。
AI Agent的挑战
从技术上看,AI Agent的发展仍然缓慢,大多数应用仍处于POC或理论实验阶段。目前几乎很少能看到能够在复杂领域场景中完全自主的规模化AI Agent应用。主要原因还是充当AI Agent大脑的LLM模型仍不够强大。即使是最强大的GPT4,在应用时仍面临一些问题:
- 上下文长度有限,限制了历史信息、详细说明、API调用上下文和响应的包含;
- 长期规划和任务分解仍然具有挑战性;
- 当前Agent系统依赖自然语言作为与外部组件之间的接口,但模型输出的可靠性值得怀疑。
此外,AI Agent的成本较高,特别是多智能体系统。在很多场景中,使用AI Agent与Copilot模式相比,效果提升不明显,或者无法覆盖增加的成本。大部分AI Agent技术仍处于研究阶段。最后,AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。