Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

创作时间:

作者:

@小白创作中心

Transformer²要做「活」的AI模型，动态调整权重，像章鱼一样适应环境

引用

来源

https://xueqiu.com/5429200869/320595023

Transformer²是一种新型的自适应机器学习系统，它能够像生物体一样动态调整其权重以适应不同的任务环境。这种创新性的设计不仅提高了模型的学习效率，还为实现终生学习的AI系统开辟了新的可能性。

自适应模型：Transformer²的创新理念

在自然界中，"适应"是一种非常普遍的现象。例如，章鱼能够迅速改变自身的肤色和纹理，以融入周围环境，从而躲避天敌和捕捉猎物；人脑在受伤后能够重新连接自身神经回路，使个体能够恢复失去的功能并适应新的思维方式或行动方式。生物体展现出的适应能力使得生命能够在不断变化的环境中蓬勃发展。

在人工智能领域，适应的概念同样具有巨大的吸引力。想象一个机器学习系统，它能够动态地调整自身的权重以在陌生的环境中不断学习、进化。与部署在环境中的静态AI模型相比，这种有自适应能力的模型明显学习效率更高，而且有望成为与现实世界动态本质始终保持一致的终生模型。

日本AI初创公司Sakana AI的Transformer²正是对这一方向的探索。该系统可以根据不同任务动态调整模型权重，通过有选择地调整模型权重的关键组成部分，允许LLM实时动态地适应新任务。

Transformer²的技术原理

Transformer²的核心是能够动态调整其权重矩阵的关键组件。在训练时，该研究引入奇异值微调（SVF），这是一种使用强化学习来增强/抑制来自不同"大脑"组件的信号以用于各种下游任务的方法。在推理时，该研究采用三种不同的策略来检测任务的身份并相应地调整模型的权重。

在训练时，SVF学习一组z向量，每个下游任务一个。每个z向量可以被视为任务的专家，是一个紧凑的表征，负责指定权重矩阵中每个组件的所需强度，形成一组"放大器"或"衰减器"来调节不同组件对模型行为的影响。SVF使用RL在预定义的下游任务集上学习这些z向量。学得的z向量使Transformer²能够适应各种新的下游任务，同时只引入最少量的额外参数（即z向量）。

在推理时，该研究为框架设计了一个两阶段适应策略，以有效地组合任务特定的z向量集。在第一次推理时，给定任务或单个输入提示，Transformer²使用以下三种适应方法之一分析其测试时条件：

基于提示的适应：专门设计的适应提示，对任务进行分类（例如数学、编程）并选择预训练的z向量。
基于分类器的适应：使用SVF训练的任务分类器，在推理过程中识别任务并选择合适的z向量。
少样本适应：通过加权插值组合多个预训练的z向量。简单的优化算法根据少样本评估集上的性能调整这些权重。

在第二次推理时，Transformer²通过组合z向量相应地调制权重，为其新设置产生最相关的最终响应。

实验结果

表1提供了在LLAMA3-8B-INSTRUCT、MISTRAL-7B-INSTRUCT-V0.3和LLAMA3-70B-INSTRUCT基础模型上对每个任务进行训练后的结果。值得注意的是，SVF在几乎所有任务和基础模型上都提供了显著且一致的性能提升。相比之下，LoRA专家产生的收益较小，甚至出现了零星的性能下降。

该研究使用SVF训练的z向量评估了Transformer²在未见任务上的自适应能力。如表2所示，所有的Transformer²适应策略都在LLAMA3-8B-INSTRUCT基础模型的所有任务上表现出性能提升，在MISTRAL-7B-INSTRUCT-V0.3和LLAMA3-70B-INSTRUCT的三个任务中至少有两个任务有所改进。相比之下，即使是最佳训练LoRA也只在ARC-Challenge任务上提供了改进，在MATH和Humaneval上显著降低了性能。

这种差异表明LoRA的参数化和优化可能特别容易过拟合，特别是在使用较小的GSM8K和MBPP-Pro数据集训练时。在图5中，基础LLAMA3-LLAVA-NEXT-8B VLM的性能仅在应用Transformer²后得到改善。研究团队注意到在这种设置中，Transformer²仅从GSM8K、MBPP-Pro和ARC-Easy的专家向量中进行自适应。因此，这一结果进一步强调了自适应的高度灵活性，基于语言任务的知识也可以迁移到不相关的基于视觉的问题上。

通过对三种适应策略的比较，作者发现了一个明显的单调趋势——即随着策略的增加和测试时间条件的增加，自适应的效果越来越明显。特别是，具有少样本自适应的Transformer²几乎总是得分最高的方法，在所有测试设置中都提供了显著改进，除了LLAMA3-70B-INSTRUCT@MATH。由于GPU资源有限，作者只对一半的层进行了SVF调优。这种趋势表明，提供额外或不同类型的信息似乎对Transformer²框架非常有益，表明Transformer²可以为基础模型提供在终身设置中部署时持续改进性能的新方法。

表3报告了Transformer²的提示适应策略所需的推理时间，分别展示了第一阶段和第二几段解决整个问题集所花费的时间。注意，"2nd pass"推理时间是解决问题所花费的时间，"1st pass"推理时间是自适应的时间。括号中是"1st pass"占"2nd pass"推理时间的比率。虽然额外的推理阶段可能看起来会使整体运行时间翻倍，但重要的是要注意推理时间主要取决于生成的token数量。在论文的设置中，它是O(n)，其中n是输入的长度。ARC-challenge括号中的数值较大，因为它们是单选题，因此"2nd pass"的成本也是O(n)。在一般设置中，作者认为这个比率更接近MATH和Humaneval的比率是合理的。