资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

创作时间:

作者:

@小白创作中心

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

引用

CSDN

https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/145171331

Transformer²是一种新型的自适应机器学习系统，它可以根据不同任务动态调整模型权重。这种系统在各种任务（例如数学、编程、推理和视觉理解）上展示了显著进步，在效率和特定于任务的性能方面优于LoRA等传统静态方法，同时需要的参数少得多。

适应性在自然界和人工智能中的体现

自适应LLM反映了神经科学和计算生物学中一个公认的原理，即大脑根据当前任务激活特定区域，并动态重组其功能网络以响应不断变化的任务需求。

在自然界，"适应"是一种非常普遍的现象。例如，章鱼能够迅速改变自身的肤色和纹理，以融入周围环境，从而躲避天敌和捕捉猎物；人脑在受伤后能够重新连接自身神经回路，使个体能够恢复失去的功能并适应新的思维方式或行动方式。生物体展现出的适应能力使得生命能够在不断变化的环境中蓬勃发展。

在人工智能领域，适应的概念同样具有巨大的吸引力。想象一个机器学习系统，它能够动态地调整自身的权重以在陌生的环境中不断学习、进化。与部署在环境中的静态AI模型相比，这种有自适应能力的模型明显学习效率更高，而且有望成为与现实世界动态本质始终保持一致的终生模型。

Transformer²的工作原理

日本AI初创公司Sakana AI的Transformer²就是对这一方向的探索。在论文中，他们提出了一种可以根据不同任务动态调整模型权重的机器学习系统——Transformer²。

Transformer²这个名字反映了它的两步过程：首先，模型分析传入的任务以了解其要求，然后应用特定于任务的调整来生成最佳结果。通过有选择地调整模型权重的关键组成部分，该框架允许LLM实时动态地适应新任务。

Transformer²在各种任务（例如数学、编程、推理和视觉理解）上展示了显著进步，在效率和特定于任务的性能方面优于LoRA等传统静态方法，同时需要的参数少得多。

研究背景与动机

自适应大语言模型（LLM）将代表AI领域的一个重要进展，提供了一个使模型能够实时适应不同任务和动态环境的框架。虽然组合性和可扩展性对于有效适应至关重要，但当前的LLM训练方法难以同时实现这两个特性。Sakana AI的研究旨在提出一个开创性的解决方案来实现这一愿景并解决这些gap。

传统上，LLM后训练试图在单次大规模训练中优化模型的广泛能力。虽然这种"一次性"微调框架从简单性的角度来看是理想的，但在实践中很难实现。例如，后训练仍然非常消耗资源，导致巨大的计算成本和超长的训练时间。此外，在引入额外数据广度时往往存在明显的性能权衡，这使得同时克服过拟合和任务干扰变得具有挑战性。

相比之下，自适应模型提供了更灵活和高效的方法。与其试图一次性训练LLM完成所有任务，专家模块可以离线开发并按需增强到基础LLM中。这使模型能够根据当前任务动态修改其行为，而无需不断重新调整。

除了具有独立组件的好处外，这种模块化还支持持续学习，使模型能够随时间增加新技能而不会出现灾难性遗忘。此外，自适应LLM反映了神经科学和计算生物学中一个公认的原理，即大脑根据当前任务激活特定区域，并动态重组其功能网络以响应不断变化的任务需求。

实现自适应LLM的挑战与解决方案

要使这种方法既可扩展又具有组合性，需要解决几个挑战。首先，微调LLM以创建多个专家模块显著增加了需要训练的参数数量。实际上，即使使用LoRA等参数高效的方法，这些模块的累积大小也会快速增加，导致存储和计算需求增加。其次，这些专家模块往往容易过拟合，这种现象在较小数据集或窄任务领域训练时尤为普遍。第三，这些专家模块的灵活组合也带来了目前尚未解决的挑战。

为了解决这些限制，研究人员提出了奇异值微调（SVF），这是一种新的参数高效微调（PEFT）方法，用于获得自适应的有效构建块。SVF通过仅提取和调整模型权重矩阵中的奇异值来工作。通过专注于这种原则性的参数化，他们提出的方法降低了过拟合风险，大幅减少了计算需求，并允许固有的组合性。他们证明这些特性使他们能够通过在窄数据集上使用强化学习进行训练来廉价地获得一组有效的领域特定"专家"向量，直接优化各个主题的任务性能。

Transformer²框架的两阶段推理机制

然后，研究人员引入了完整的Transformer²框架，通过自适应的基本原则来增强LLM。给定来自未知任务的提示，Transformer²采用两阶段推理机制，如图1所示。

在第一阶段，Transformer²执行模型并观察其测试时行为，收集相关信息以理解解决当前问题所需的技能。在第二阶段，Transformer²框架使用这些信息组合可用的专家向量，并对LLM的基础权重提供专门针对其测试时条件的新修改。研究人员在Transformer²中设计了三种不同的适应策略，并证明这些策略随着对测试时条件的访问增加而提供单调的性能提升。

方法概览

奇异值微调（SVF）

就像人类大脑通过互连的神经通路存储知识和处理信息一样，LLM在其权重矩阵中存储知识。这些矩阵是LLM的"大脑"，保存着它从训练数据中学到的精髓。要理解这个"大脑"并确保它能够有效地适应新任务，需要仔细研究其内部结构。这就要使用奇异值分解（SVD），SVD将存储在LLM中庞大、复杂的知识分解成更小的、有意义的、独立的部分（例如数学、语言理解等不同的组件）。

Transformer²的核心是能够动态调整其权重矩阵的关键组件。在训练时，该研究引入奇异值微调（SVF），这是一种使用强化学习来增强/抑制来自不同"大脑"组件的信号以用于各种下游任务的方法。在推理时，该研究采用三种不同的策略来检测任务的身份并相应地调整模型的权重。

使用SVF和RL进行训练

在训练时，SVF学习一组z向量，每个下游任务一个。每个z向量可以被视为任务的专家，是一个紧凑的表征，负责指定权重矩阵中每个组件的所需强度，形成一组"放大器"或"衰减器"来调节不同组件对模型行为的影响。SVF使用RL在预定义的下游任务集上学习这些z向量。学得的z向量使Transformer²能够适应各种新的下游任务，同时只引入最少量的额外参数（即z向量）。

自适应

在推理时，该研究为框架设计了一个两阶段适应策略，以有效地组合任务特定的z向量集。在第一次推理时，给定任务或单个输入提示，Transformer²使用以下三种适应方法之一分析其测试时条件：

基于提示的适应：专门设计的适应提示，对任务进行分类（例如数学、编程）并选择预训练的z向量。
基于分类器的适应：使用SVF训练的任务分类器，在推理过程中识别任务并选择合适的z向量。
少样本适应：通过加权插值组合多个预训练的z向量。简单的优化算法根据少样本评估集上的性能调整这些权重。

在第二次推理时，Transformer²通过组合z向量相应地调制权重，为其新设置产生最相关的最终响应。

实验结果

SVF性能

表1提供了在LLAMA3-8B-INSTRUCT、MISTRAL-7B-INSTRUCT-V0.3和LLAMA3-70B-INSTRUCT基础模型上对每个任务进行训练后的结果。值得注意的是，SVF在几乎所有任务和基础模型上都提供了显著且一致的性能提升。相比之下，LoRA专家产生的收益较小，甚至出现了零星的性能下降。这种趋势也可以扩展到视觉-语言领域，因为用SVF微调LLAMA3-LLAVA-NEXT-8B将基础模型的性能提升了超过39%（见图5）。

适应性能

该研究使用SVF训练的z向量评估了Transformer²在未见任务上的自适应能力。如表2所示，所有的Transformer²适应策略都在LLAMA3-8B-INSTRUCT基础模型的所有任务上表现出性能提升，在MISTRAL-7B-INSTRUCT-V0.3和LLAMA3-70B-INSTRUCT的三个任务中至少有两个任务有所改进。相比之下，即使是最佳训练LoRA也只在ARC-Challenge任务上提供了改进，在MATH和Humaneval上显著降低了性能。

这种差异表明LoRA的参数化和优化可能特别容易过拟合，特别是在使用较小的GSM8K和MBPP-Pro数据集训练时。在图5中，基础LLAMA3-LLAVA-NEXT-8B VLM的性能仅在应用Transformer²后得到改善。研究团队注意到在这种设置中，Transformer²仅从GSM8K、MBPP-Pro和ARC-Easy的专家向量中进行自适应。因此，这一结果进一步强调了自适应的高度灵活性，基于语言任务的知识也可以迁移到不相关的基于视觉的问题上。

通过对三种适应策略的比较，作者发现了一个明显的单调趋势——即随着策略的增加和测试时间条件的增加，自适应的效果越来越明显。特别是，具有少样本自适应的Transformer²几乎总是得分最高的方法，在所有测试设置中都提供了显著改进，除了LLAMA3-70B-INSTRUCT @MATH。由于GPU资源有限，作者只对一半的层进行了SVF调优。这种趋势表明，提供额外或不同类型的信息似乎对Transformer²框架非常有益，表明Transformer²可以为基础模型提供在终身设置中部署时持续改进性能的新方法。

表3报告了Transformer²的提示适应策略所需的推理时间，分别展示了第一阶段和第二几段解决整个问题集所花费的时间。注意，"2nd pass"推理时间是解决问题所花费的时间，"1st pass"推理时间是自适应的时间。括号中是"1st pass"占"2nd pass"推理时间的比率。虽然额外的推理阶段可能看起来会使整体运行时间翻倍，但重要的是要注意推理时间主要取决于生成的token数量。在论文的设置中，它是O(n)，其中n是输入的长度。ARC-challenge括号中的数值较大，因为它们是单选题，因此"2nd pass"的成本也是O(n)。在一般设置中，作者认为这个比率更接近MATH和Humaneval的比率是合理的。

结论

这项研究为人们提供了一个未来AI模型不再静态的初步展望。这些系统将在测试时动态地调整其计算能力，以适应它们所遇到的任务的复杂性，体现出能够持续变化和终生学习的"活"的智能。有人就此展望说，"未来，'预训练'和'后训练'之间的界限将会消失，我们的模型和智能体将不断适应和自我改进。像这样的系统将为新一代自适应人工智能铺平道路，这种人工智能能够修改自身的权重和架构，以适应它们在环境中遇到的任务不断变化的本质。"

论文标题：
TRANSFORMER²: SELF-ADAPTIVE LLMS

论文链接：
https://arxiv.org/pdf/2501.06252

这篇论文共有三位共同一作，其中两位是华人。Qi Sun在东京工业大学担任研究助理，同时在Sakana AI兼职，研究方向是视觉语言模型的训练与评估、大规模合成数据生成等。Yujin Tang曾在谷歌工作多年，现在是Sakana AI的研究科学家，研究方向是强化学习和机器人。