资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AI大模型实现自我进化新突破：基于长期记忆的Omne框架

创作时间:

作者:

@小白创作中心

AI大模型实现自我进化新突破：基于长期记忆的Omne框架

引用

CSDN

https://blog.csdn.net/Android23333/article/details/146211774

在AI大模型领域，如何实现模型的自我进化是一个重要的研究方向。近日，天桥脑科学研究院和普林斯顿大学等机构发布了一篇重要研究论文，提出了基于长期记忆（LTM）的AI自我进化框架Omne，在GAIA基准测试中取得了第一名的成绩。本文将详细介绍这一创新性研究成果。

研究背景

地球上最早的生命证据至少可以追溯到35亿年前，而智人（Homo sapiens）的出现则是在大约25万到40万年前。在漫长的生物演化历程中，生物系统不断趋向复杂化，其中最复杂的生物组件莫过于人类大脑。这种复杂性是人类意识和智慧的源泉，其背后的机制是进化（evolution）。

进入大模型时代，强大的基础模型已经展现出了令人瞩目的智能水平，能够完成多种多样的任务。然而，这些模型也存在一个显著的局限性：训练完成后就基本定型，难以随着用户的使用而演进。这种能力对于AI系统的持续优化至关重要。

针对这一挑战，天桥脑科学研究院和普林斯顿大学等研究机构发布了一篇重要研究论文，详细阐述了长期记忆（LTM）对AI自我进化的重要性，并提出了基于多智能体的Omne框架。该框架在GAIA基准测试中取得了第一名的成绩。

AI自我进化过程的三个阶段

研究团队将LLM的模型进化过程分为三个主要阶段：

阶段1：在物理世界中积累认知
阶段2：在数字世界中构建基础模型
阶段3：模型自我进化，以实现更强大的智能

当前的研究主要集中在前两个阶段，即如何构建更好的数据集以及如何训练更强大的基础模型。然而，到了第三阶段，架构的重要性开始与数据相匹敌。核心挑战在于如何在统计模型的基础上有效表达少数个体的数据。该研究重点关注如何确保在统计模型内有效地表达个体数据。

实现模型自我进化的原理

模型的自我进化能力是其长期适应和个性化的关键，这严重依赖于有效的记忆机制。研究团队提出，长期记忆（LTM）能够为模型的持续进化提供历史数据积累和经验学习能力。正如人类通过经验和记忆来完善认知和行为一样，LTM也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。

LTM数据提升模型能力

在传统LLM中，更新模型通常需要调整所有参数，而如果目的是处理个体数据，这种操作显然不切实际。更优的方法是仅更新局部参数，从而在保持模型全局稳定性的前提下，让模型适应稀疏、个性化的LTM数据。这种方法可以解决当前模型中个体数据“被平均化”的问题，使个性化信息能够更全面地表达。使用上下文学习（ICL）的检索增强生成（RAG）和用于微调的低秩适应（LoRA）等技术都可被视为局部更新个体数据的方法。

研究团队采用了一种混合策略来整合LTM数据，以在实际应用中达到令人满意的结果。虽然他们也承认这可能并非完美解决方案，但未来可能会出现更好的方法。

实时权重更新实现自我进化

当前的LLM通常分为训练和推理两个阶段。在推理阶段，模型权重是冻结的，防止模型根据新输入进行调整和学习。这种固定的推理过程会限制模型的适应性，尤其是在处理个性化任务和实时学习方面。

受人脑更新机制启发，研究团队认为未来的LLM应该将推理和训练与LTM结合起来，使模型能够在接收到新信息时动态调整权重。这种类似于人类持续学习的能力，可以帮助模型在面对复杂推理任务时自我反思并纠正错误的推理路径，从而提高准确性和效率。

这种动态的自我调整能力将大大提升模型的个性化能力和长期进化潜力。通过长期记忆，模型不仅可以从短期记忆中学习，还可以从历史数据中提取有价值的见解，随着时间的推移能更深入地理解个人偏好和行为模式。这种理解可实现模型的个性化定制和动态调整，使模型能够更有效地进化。特别是在面对新的或极端的情况时，长期记忆使模型能够参考过去的经验，快速做出调整并自我进化，从而获得更大的灵活性和适应性。

长期记忆在模型自我进化中的实现路径

研究团队首先给出了AI自我进化和LTM的定义，然后探索了LTM在AI自我进化中的关键作用，之后介绍了如何使用LTM来实现AI自我进化。他们的主要贡献包括：

给出了AI自我进化和LTM的定义
提出了一个用于LTM的数据框架，包括数据收集、分析与合成
提出了一个用于LTM的多智能体协作开发框架

AI自我进化的基础

AI自我进化是指AI模型使用个性化数据不断学习和优化，实现多智能体协作和认知方面的突破。该过程基于一个共享式内核架构，其中各个模型通过处理个性化经验和数据不断进化，从而提升自身推理能力和适应能力，最终实现在动态环境中的自主学习和持续进化。

要实现AI自我进化，需要：

多智能体协作机制
差异化的个性化模型
自我纠错和评估机制
长期记忆和学习能力

LTM在AI自我进化中的应用

目前，LLM主要通过两种记忆机制来管理信息：上下文存储器和基于压缩的参数存储器。虽然这些机制在短期任务中表现出色，但它们在支持长期自主学习和进化方面仍然存在不足。

正如人类使用LTM来塑造他们的行为和身份一样，人工智能系统也可以采用类似的方法根据“个人数据”定制其响应和行为。这里，“个人数据”不仅限于个人用户，还包括特定的机构和领域，允许模型根据更广泛的个人背景和需求调整其响应和行为。

研究团队深入探讨了LTM在AI自我进化中所发挥的关键作用，首先在AI自我进化的背景下定义了LTM，并分析了当前LLM记忆机制的缺点。然后，他们讨论了通过从人类LTM特征中汲取灵感来增强人工智能模型的自我进化能力，旨在构建能持续学习和自我完善的人工智能系统。

研究团队将AI自我进化中的LTM定义为：LTM是人工智能系统可以长期保留和利用的信息，使模型能够根据更广泛的背景调整其响应和行为。

从数据积累的角度来看：模型和人类都与环境进行广泛的交互，为个性化提供基础数据。与人类相比，人工智能模型可以更有效地与环境交互，并且可以在纯虚拟的数字环境中执行这些交互和迭代。因此，通过设计适当的记忆细化策略，模型应该能够像人类一样积累长期记忆，甚至可能具有更高的效率和规模。

从模型更新的角度来看：人工智能擅长存储和调用海量数据，远远超过人类记忆规模。神经网络通过分布式参数管理这些数据，处理来自不同领域的输入。然而，这种存储相对刚性，缺乏实时更新的灵活性，通常需要重新训练才能实现更新。相比之下，人类的记忆力却非常强。

LTM的构建策略

LTM是对原始数据的有效组织和结构化，而不仅仅是表面上对原始数据进行分类和排序。相反，它是从记忆快速存储和检索以及信息高效利用的角度来设计和优化。通过建立相关信息之间的联系，有效处理数据并重新组织信息，智能体可以快速定位所需的记忆片段，从而提高响应速度和准确性。以下是几种主要的操作方法：

文本摘要
数据结构化
图表征
矢量化
模型参数化

如何利用LTM实现模型自我进化

获得高质量的LTM数据后，下一个挑战是如何利用它来增强模型能力并实现模型的自我进化。在使用LTM数据以最大限度地提高其有效性和效率的过程中需要解决几个关键挑战，包括：

适应持续更新的LTM数据
实时学习和高效反馈集成
处理数据稀疏性和用户多样性

以清华大学团队的Agent Hospital（智能体医院）作为案例，研究团队展示了如何在这个模拟医疗场景中用LTM来提升模型的能力，其中包括医疗记录积累、医疗经验反思和基于RAG利用LTM。详见原论文。

基于LTM实现模型自我进化的实践

为了提升模型保留和访问LTM数据的能力，研究团队全面研究了各种方法，其中包括：

如何收集真实世界的LTM数据
如何获取合成的LTM数据
如何使用LTM数据

研究团队还开发了一个基于LTM的多智能体框架Omne。Omne是基于AutoGen MultiAgent Framework深度定制的开发框架，专门用于解决LTM在AI系统中的实际应用难题。它扩展了一系列与记忆相关的基础设施，包括统一的记忆模型、多模态消息处理系统以及灵活的记忆存储和操作机制。Omne的核心模块（Omne Core）如下图所示：

基于Omne Core，研究团队还构建了一个Omne Assistant。Omne Assistant的设计目标是帮助开发聊天场景中的AI助手，其提供了一个现成的应用层框架。它包括AI助手所需的基本功能，使开发人员无需从头开始设计基础组件，就能快速构建功能齐全的聊天机器人。

Omne Assistant带有一个Simple Responder，这是一个通用的问答响应器，可以处理基本的用户聊天交互以实现即时通信。此外，该框架还提供了一个Reactive Responder，它具有高级任务分析和规划功能，使其能够管理需要多步骤推理和任务编排的更复杂的用户请求。

借助这些内置组件，Omne Assistant可让开发人员专注于实现自己的功能，从而更快地开发和部署配备长期记忆功能的AI助手应用。

在GAIA基准（包含400多个问答任务的通用AI助手测试集）上，研究团队对Omne框架进行了评估。为了探索AI的边界，他们在Omne框架中使用了当今最强大的GPT-4o和o1-preview模型，同时配备了4个工具：网络浏览、Bing搜索引擎、基于llamaparse的文件读取器，一个使用o1-preview构建的逻辑专家。

基于这2个基础模型和4个工具，Omne在测试集和验证集上分别取得了第一名（40.53%）和第二名（46.06%）的成绩。值得注意的是，Omne在最复杂、要求最高的3级问题上达到了26.53%的准确率。这证明了其通过利用强大的基础模型（尤其是具有强大推理和逻辑能力的模型）解决现实问题的潜力。