谁将替代Transformer？非Transformer架构研究进展与挑战

创作时间:

作者:

@小白创作中心

谁将替代Transformer？非Transformer架构研究进展与挑战

引用

来源

https://cloud.tencent.com/developer/article/2407792

Transformer架构自2017年提出以来，已成为人工智能领域的主导技术，广泛应用于各种主流AI模型。然而，随着其局限性逐渐显现，如计算成本高昂和内存占用大等问题，研究者们开始探索非Transformer架构的可能性。本文将深入探讨当前非Transformer架构的研究进展及其面临的挑战。

非Transformer架构的现状

在Transformer大行其道的同时，一些研究者开始质疑其效率和可扩展性。Transformer中固有的自注意力机制虽然强大，但也带来了计算复杂度高的问题。当处理长序列时，所需的算力会按序列长度的平方增加，导致计算成本高昂且占用大量内存。

基于Transformer的局限性，许多非Transformer架构应运而生，包括中国的RWKV、Meta的Mega、微软亚研的RetNet、DeepMind的Hawk和Griffin等。这些研究大多在原有的RNN基础上，针对Transformer的缺陷和局限性进行改进，试图开发出更高效、更接近人类思考方式的架构。

非Transformer架构的主要流派

当前的非Transformer研究主要分为两个流派：

完全用recurrent（循环）结构替代attention：以RWKV、Mamba和S4为代表。这类方法通过固定内存来记住前面的信息，但目前来看，要达到更长的序列长度仍面临挑战。
将full attention的密集结构变得稀疏：以Meta的Mega为代表。这种方法在计算中不再需要计算attention矩阵中的每一个元素，从而提高模型效率。

具体分析

RWKV：作为国产开源的首个非Transformer架构大语言模型，RWKV已迭代至第六代。其核心思想是用线性注意力机制近似全注意力机制，试图结合RNN和Transformer的优点，同时规避两者的缺点。
Mamba：由卡内基梅隆大学和Together.AI的研究者提出，完全采用循环结构而不使用attention。其优势在于内存大小固定，但外推能力较弱。
RetNet：微软亚研提出，引入多尺度retention机制替代多头注意力。其推理成本与序列长度无关，解码速度和内存使用效率显著优于Transformer。
Mega：Meta提出，采用稀疏attention矩阵结合循环结构。通过限制attention的窗口范围，同时结合滚动记忆形式，实现高效计算。
Hawk和Griffin：DeepMind团队提出，属于带门控的线性RNN，与Mega类似，采用混合模型架构。

Transformer能否被颠覆？

虽然当前非Transformer研究提出的模型在测评效果上普遍优于同等规模的Transformer，但它们共同面临的考验是：当规模扩大到当前Transformer模型的大小时，是否还能保持性能和效率优势？目前参数最大的RWKV有140亿参数，而GPT-3已达1750亿参数，GPT-4更是传闻有1.8万亿参数。

多位投资人对非Transformer研究持谨慎态度，一方面担心其长期发展潜力，另一方面认为未来硬件和算力的进步可能会降低当前架构的优劣势。RWKV虽然在端侧应用中展现出一定优势，但也有观点认为，如果要达到OpenAI的水平，还需要在框架复杂度和性能之间找到更好的平衡。

未来展望

Transformer目前的地位依然稳固，其形成的生态护城河难以逾越。无论是硬件、系统还是应用，都围绕Transformer进行适配和优化。然而，根据科技发展的规律，很难有一个架构能永远主导AI领域。未来，非Transformer架构需要继续证明自己的潜力，同时Transformer架构也需要突破现有瓶颈。

对于中国读者而言，这篇文章提供了对当前AI技术前沿的深入了解，有助于理解Transformer及其替代方案的技术特点和未来发展方向。

热门推荐

VLAN工作原理+实验案例(超详细)