谁将替代Transformer?非Transformer架构研究进展与挑战
谁将替代Transformer?非Transformer架构研究进展与挑战
Transformer架构自2017年提出以来,已成为人工智能领域的主导技术,广泛应用于各种主流AI模型。然而,随着其局限性逐渐显现,如计算成本高昂和内存占用大等问题,研究者们开始探索非Transformer架构的可能性。本文将深入探讨当前非Transformer架构的研究进展及其面临的挑战。
非Transformer架构的现状
在Transformer大行其道的同时,一些研究者开始质疑其效率和可扩展性。Transformer中固有的自注意力机制虽然强大,但也带来了计算复杂度高的问题。当处理长序列时,所需的算力会按序列长度的平方增加,导致计算成本高昂且占用大量内存。
基于Transformer的局限性,许多非Transformer架构应运而生,包括中国的RWKV、Meta的Mega、微软亚研的RetNet、DeepMind的Hawk和Griffin等。这些研究大多在原有的RNN基础上,针对Transformer的缺陷和局限性进行改进,试图开发出更高效、更接近人类思考方式的架构。
非Transformer架构的主要流派
当前的非Transformer研究主要分为两个流派:
完全用recurrent(循环)结构替代attention:以RWKV、Mamba和S4为代表。这类方法通过固定内存来记住前面的信息,但目前来看,要达到更长的序列长度仍面临挑战。
将full attention的密集结构变得稀疏:以Meta的Mega为代表。这种方法在计算中不再需要计算attention矩阵中的每一个元素,从而提高模型效率。
具体分析
RWKV:作为国产开源的首个非Transformer架构大语言模型,RWKV已迭代至第六代。其核心思想是用线性注意力机制近似全注意力机制,试图结合RNN和Transformer的优点,同时规避两者的缺点。
Mamba:由卡内基梅隆大学和Together.AI的研究者提出,完全采用循环结构而不使用attention。其优势在于内存大小固定,但外推能力较弱。
RetNet:微软亚研提出,引入多尺度retention机制替代多头注意力。其推理成本与序列长度无关,解码速度和内存使用效率显著优于Transformer。
Mega:Meta提出,采用稀疏attention矩阵结合循环结构。通过限制attention的窗口范围,同时结合滚动记忆形式,实现高效计算。
Hawk和Griffin:DeepMind团队提出,属于带门控的线性RNN,与Mega类似,采用混合模型架构。
Transformer能否被颠覆?
虽然当前非Transformer研究提出的模型在测评效果上普遍优于同等规模的Transformer,但它们共同面临的考验是:当规模扩大到当前Transformer模型的大小时,是否还能保持性能和效率优势?目前参数最大的RWKV有140亿参数,而GPT-3已达1750亿参数,GPT-4更是传闻有1.8万亿参数。
多位投资人对非Transformer研究持谨慎态度,一方面担心其长期发展潜力,另一方面认为未来硬件和算力的进步可能会降低当前架构的优劣势。RWKV虽然在端侧应用中展现出一定优势,但也有观点认为,如果要达到OpenAI的水平,还需要在框架复杂度和性能之间找到更好的平衡。
未来展望
Transformer目前的地位依然稳固,其形成的生态护城河难以逾越。无论是硬件、系统还是应用,都围绕Transformer进行适配和优化。然而,根据科技发展的规律,很难有一个架构能永远主导AI领域。未来,非Transformer架构需要继续证明自己的潜力,同时Transformer架构也需要突破现有瓶颈。
对于中国读者而言,这篇文章提供了对当前AI技术前沿的深入了解,有助于理解Transformer及其替代方案的技术特点和未来发展方向。