Copilot 背后的技术:智能体架构的探索与应用
Copilot 背后的技术:智能体架构的探索与应用
随着大模型技术的快速发展,AI应用正逐渐渗透到人们生活的方方面面。然而,目前尚未出现真正令人惊艳的现象级产品。本文将从架构思考、源码实现、应用以及遇到的挑战等多个维度,分享对智能体架构的探索与思考。
5月14日,OpenAI的发布会又在深夜炸场了,每一次的发布,确实都能给我们带来很大的震撼。在模型每半年一次大升级的前提下,如何思考、设计未来的应用架构,尤其是Agent的架构至关重要。
从接触到ChatGPT到躬身入局开发DB-GPT(开源的AI原生数据应用开发框架)项目也已经一年有余,在最近我们的能力逐步开始规模化应用之际,正好也来谈谈我们在这一段时间的探索与思考。大模型带来的智能化革命,不仅打开了专业技术走向大众普惠的大门。同时Transformer(变形金刚),将天门劈开了一条裂缝,让我们看到了曙光。开启了新一轮的技术竞赛与科技角逐。
如果说去年我们还在关注算力的比拼,那其实走到现在。已经逐渐演变成体力、心力、定力、毅力的竞争。我相信大家都已经看到了,最近国内的模型Qwen2.5与DeepSeekV2已经表现出了GPT-4同级别的表现力,并且在推理成本上DeepSeekV2只有GPT-4的百分之一。随着成本指数级别的骤降,以及更多人逐渐掌握这项革命性的技术,规模化的落地应用也逐渐出现在了我们的视野。
最近业务领域的应用,也是层出不穷,不仅各大模型厂商推出了自己的大模型应用APP,之前的传统APP也都集成了AI的能力,尤其是支付宝智能助手的发布,预示着以大模型为核心技术的AI应用,开始逐步渗透到每个人的生活当中。
但饶是如此,截止目前应用层面尚未出现让人持续心动的现象级产品。可能一方面来讲,确实大模型技术从ChatGPT出现到今天也仅仅只有一年半时间,我们需要给新的产品一点耐心。但另一方面来讲,这个时代以Copilot为重心的业务场景落地,更适合锦上添花。毕竟就目前这一代人在经历过互联网产品的投喂之后,单单搞出点有用高效的东西,已经很难戳中他们的嗨点了。所以要出现现象级的产品,还一定得要有趣、好玩。
所以,以前的应用构建逻辑跟以后的会出现很大的不同。以前的应用是我办个事情,顺便玩个游戏。以后的应用大概率都会是找乐子的时候把事给办了。当前最典型的就是正刷着抖音,然后顺手下单购个物。
Agent架构
特别说明:本文中绝大多数对Agent的思想与构建都来自《A survey on large language model based autonomous agents》这篇综述文章,我们对里面的一些理念做了工程实现与落地应用。
我们言归正传,今天我们要讲的是Agent(智能体),更准确的说,是自主智能体。Agent跟Copilot这两个词相信大家都不陌生了,这一年多的时间里面有非常多的相关产品与技术的演进与讲解,在这里我再从架构思考、源码实现、应用以及遇到的挑战出发,将我们对智能体思考与探索做一个分享。
其实早在我们的DB-GPT开源项目中,也在年初发布了相关的能力(DB-GPTV0.5.0发布—通过工作流与智能体开发原生数据应用)。但由于最近一直聚焦在业务落地探索,所以直到今天才抽出时间做一个系统的总结。
什么是自主智能体?
An autonomous agent is a system situated within and a part of an environment that senses that environment and acts on it, over time, in pursuit of its own agenda and so as to effect what it senses in the future.
——Franklin and Graesser(1997)