周伯文 | 以通专融合方式构建AGI——路径与关键问题探索
周伯文 | 以通专融合方式构建AGI——路径与关键问题探索
面对当前大语言模型在Scaling Law与架构等方面的技术瓶颈,上海交通大学上海高级金融学院兼聘教授周伯文及其团队提出了完整的AGI实现路径,更创新性地从应用价值出发,探索更高效发挥AGI潜力的场景与方法。本文详细介绍了这一原创性路径及其技术研究,旨在为AGI的未来发展提供新的纵深视角和实践指导。
图片来源:千图网
人工智能突破从哪里来?未来向何处发展?
前沿学者们对大语言模型的能力边界进行了持续讨论。例如,图灵奖得主Yann LeCun常提及,机器学习目前存在诸多短板,他的研究偏重泛化性,关注如何尽量达到人类的智能。而DeepMind强化学习团队负责人David Silver提到,要做到Superhuman Intelligence(超人类人工智能)以及发现更多新知,大语言模型尚且存在局限,仍有许多工作有待完成。然而他强调的是如何在一些专业领域实现Superhuman Intelligence,并不是具备更强的通用能力。
因此,在当下这一时间节点,探讨AGI的实现方向及其关键问题,具有重要的意义。
通专融合AGI实现路径
我们提出的通专融合,不仅需要同时具备专业性和通用泛化性,还必须解决任务可持续性的问题,来让人工智能高效地可持续发展,它们形成了通专融合技术挑战的三个顶点。
图7:“通专融合”必须实现“通用泛化性”“高度专业性”“任务可持续性”三者兼得
自2023年初以来,我们提出了具体的通专融合实现路径(Towards Building Specialized Generalist AI with System 1 and System 2 Fusion),该路径需要三个层次相互依赖,而非仅依靠单一模型或算法。对每一层我们都有整体规划与具体技术进展,不过由于时间关系不能一一展开,下面简要描述每一层的核心思想,以此完成对通专融合技术体系的拆解。
基础模型层
高密度监督信号是专业化知识注入的关键。在基础模型层,必须高效引入高智力密度监督信号。在压缩智能学习方式下,容易让人误以为只需给出下一个词作为监督,模型就能高效学习。然而,这种学习方式在很多情况下仅能让模型学会一种“快捷方式”(Shortcut),它知道如何找到最佳答案,但对于“为什么这是最佳答案”,则缺乏系统化的思考。
基于这一原因,在直接偏好优化阶段,我们提出了带有观测、批评、修改循环流程的树状偏好数据构建方法。在每个推理阶段,给模型提供多个选择并给出优先级,通过更高密度的监督,使模型在推理过程中学会更多可替代性的比较(Advancing LLM Reasoning Generalists with Preference Trees)。该方法在OpenAI o1亮相前已公布,仔细研究会发现它采用了类似的高智力密度监督推理过程。这是为模型注入专业化知识的关键。
何为“专业”与“不专业”?前者意味着始终能在多个选择中找出最佳答案;而后者则仅能做出“最佳猜测”,常被其他待选项所混淆。(11月25日,团队推出了能够自主生成高智力密度数据、具备元动作思考能力的“模型” InternThinker,能在推理过程中进行自我反思和纠正,从而在数学、代码、推理谜题等多种复杂推理任务上取得更优结果。)
除了当前的主流结构外,高效的知识推理可组合可分离的架构更有利于构建可信赖、泛化、扩展的大模型。布罗德曼分区(Brodmann area)是神经科学里面公认对大脑不同区域承担不同专业功能的分区架构。我们寻找的架构,应具备知识应用可信赖、推理过程可泛化、知识内容可拓展三种性质,同时能够有效地进行组合。Transformer的一个优点在于,可实现推理与知识的高度融合,拥有很大的提升空间。但缺点也在于当知识和推理高度融合之后,一旦模型产生幻觉,将很难溯源。所以寻找一种新的架构极其重要。
图10:长期记忆机制——通专融合的中间桥梁
融合协同层
通专融合路径的第二层是融合协同层,特别强调快速处理和深度推理结合。在CVPR 2024收录的论文中,我们探索了这一领域(Interactive continual learning: Fast and slow thinking)。我们构建了一个高效识别图像的快系统,当其遇到不确定的情况时,会将信息传递给一个更强大的慢系统。慢系统基于输入信息进行深度分析,并将结果反馈给快系统并在快系统中完成了一个结构化长期存储的更新。这种结合不仅降低了能耗,还提升了处理速度和准确率。
这种结合在处理速度和能耗上优于单独使用慢系统。许多问题快系统可自行回答,无需调用慢系统。此外,我们发现这种结合的准确度高于单独使用快系统或慢系统,这一发现颇具启发性。其潜力在于,快系统缺乏深度思考,易犯错;而慢系统对具体情况的判断不如快系统,许多细节不了解。通过快系统的输入,慢系统可排除不可能情况,做出更好判断。
快系统好比前线侦察员,提供具体输入信息;慢系统则相当于后方指挥官,具有更好的思考深度和判断能力。两者结合,可做出更准确高效的决策。这种结合不仅是简单叠加,而是深刻互动和理解。快系统从慢系统的输出中学习,并形成长期记忆;慢系统从快系统的输入中获得专业判断和背景。
图13:Nature——科学突破性创新在变慢
上述系统不仅适用于图像识别,我们还尝试将其应用于自然语言生成,让这样一个通专融合架构生成非常专业化的描述文字,例如某种疾病的治疗方法、具体商品的营销策略等。我们近期的一项工作中,专业模型承担了大部分任务,80%的任务由专业模型独立完成,而20%的慢推理对提升专业模型的泛化性有非常大的帮助(CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following. 2024)。
探索进化层
正如前面提到,人类学会游泳必须与真实物理世界互动,AI也是如此。在这一层,我们尝试进行模型与环境长期实时交互,并进行具身自主探索与世界模型构建。比如上海人工智能实验室提出了开源且通用的自动驾驶视频预测模型GenAD,类似于自动驾驶领域的“SORA”,能够根据一张照片的输入,生成后续高质量、连续、多样化、符合物理世界规律的未来世界预测,并可泛化到任意驾驶场景,被多种驾驶行为操控。
在与物理世界的互动探索中,一方面我们深入物理世界,另一方面则在虚拟世界中通过模拟进一步提升效率。如具身智能训练,我们实现了在单卡上模拟训练一小时,相当于在真实物理世界训练380天的效率。
通专融合实践:科学发现
2023年1月5日《Nature》发表的封面文章《Papers and patents are becoming less disruptive over time》,文章提到,过去70年来论文数越来越多,专利数越来越多,但单篇论文的影响力却逐年下降,这不仅仅出现在计算机领域,也适用于生物、物理、化学等领域。
图13:Nature——科学突破性创新在变慢
这篇论文只做了数据分析,没有追溯原因。对此我的个人思考是,该现象与科学发展规律密切相关。科学经过100余年的建设,已建成趋于完美的大厦,在大厦内部,每门子学科形成了非常强大的信息茧房,茧房间壁垒高,茧房内信息过载,所以导致论文与以前相比很难产生更广泛的影响力。
解决这一问题,还需要对科研的组织方式和适配性进行适当调整。与此同时,也需要科研工作者与时俱进,用好AI新工具。
我们有没有可能通过人工智能在技术层面帮助科学家获得更多突破?例如,人工智能的通用能力可以帮助人类解决信息壁垒太高的问题——因为人类的信息容量是有天花板的。茧房的信息过载的问题,则可以通过人工智能系统深度思考突破。所以,通专融合是解决科学创新,开创下一代科学创新范式必须具备的能力。
关于使用大模型开展科学创新,目前存在诸多问题,例如不确定性和幻觉。不过原OpenAI联合创始人Andrej Karpathy认为,这种不确定和幻觉一方面可以被认为是大模型目前的不足,但另一方面则更像一个特性而非缺陷,这种幻觉与创造性相关,模型的幻觉可以与人类做梦类比。
在科学历史上,德国有机化学家August Kekul梦见衔尾蛇,进而发现苯环结构。这种发现的过程,从某种意义上讲,与大模型的幻觉具有很强的相似性,关键在于如何把幻觉的创造性用好,利用大模型的这种特点发挥价值。
基于这些思路,我们开展了一系列的工作,比如我们认为大语言模型是非常有效的零样本(Zero-shot)科学假设的提出者。所谓零样本就是大模型可以提出全新、原创的科学假设。不一定像牛顿三大运动定律那样具有划时代意义,但模型确实能提出一些科学家没有发现和观察到的现象(如我们2023年的工作Large language models are zero shot hypothesis proposers以及近期工作UltraMedical: Building Specialized Generalists in Biomedicine)。例如,我们构建的全自动蛋白质组学知识发现系统Proteus能结合真实的蛋白质组学数据,独立发现191条经过专家评估的、具有自洽性、逻辑性和创新性的科学假设。
在相关的工作中,我们验证了通专融合大模型能够提出有效的科学假设。如果把通专融合再进一步延伸至多智能体,我们发现,具备通专融合的系统,可以在科学研究的全生命周期过程中发挥不同的作用,并可与人类科学家进行配合。
我们进而提出了“人在环路大模型多智能体与工具协同”概念框架,用以模仿人类科研过程。通过构建AI分析师、工程师、科学家和批判家等多种角色,同时接入工具调用能力来协同提出新的假设,并进一步将人类专家纳入其中,借助“人在环路”挖掘人机协同的潜力。实验结果表明,这一框架能够显著提升假设发现的新颖性与相关性等多个维度指标(Large Language Models are Zero Shot Hypothesis Proposers. NeurIPS 2023)。
早在1900年,德国数学家大卫·希尔伯特(David Hilbert)提出了著名的“23个问题”,引领了数学多个子领域数百年的发展。无论是希尔伯特还是爱因斯坦,他们都谈到过,提出科学问题,远比解决问题更重要。我们希望通专融合的AI系统,能帮助各个领域出现更多希尔伯特。
展望:AGI的中心法则?
分子生物学中,有一个被称为“中心法则”的概念,1958年由诺贝尔奖得主佛朗西斯·克里克(Francis Crick)首次提出,明确了遗传信息从DNA传递到RNA,再从RNA传递到蛋白质的过程。这一法则不仅深刻揭示了生命现象的本质,也为之后的生物技术发展提供了方向指导。随着科学研究的深入,中心法则经历了多次修正和完善,逐渐成为分子生物学的核心理论之一。
图13:AGI的“中心法则”
这一法则令我印象深刻。因为它非常有洞察地揭示和影响着生物领域的各个方面。这进一步引发了我的联想:关于AGI如何实现,此前还未形成一条指导实践的完整路径,我们能否找到一种AGI的“中心法则”?
我在报告中提出的“通专融合”路径,是对这一问题的探索。生物学的中心法则是在几十年研究中不断地迭代更新,很多优秀科学家一同共创,做出了杰出贡献。同理,AGI可能也需要这样来自人工智能研究与其他交叉学科社区的共创。希望本文介绍的思路与相关工作,能为各位读者带来启发。
本文内容整理自周伯文教授在CNCC2024大会上进行的特邀报告。
周伯文
上海人工智能实验室主任、清华大学惠妍讲席教授、电子系长聘教授、人工智能国际治理研究院人工智能治理技术方向首席专家