问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

谁将替代Transformer?非Transformer架构研究进展与挑战

创作时间:
作者:
@小白创作中心

谁将替代Transformer?非Transformer架构研究进展与挑战

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2407792

Transformer架构自2017年提出以来,已成为人工智能领域的主导技术,广泛应用于各种主流AI模型。然而,随着其局限性逐渐显现,如计算成本高昂和内存占用大等问题,研究者们开始探索非Transformer架构的可能性。本文将深入探讨当前非Transformer架构的研究进展及其面临的挑战。

非Transformer架构的现状

在Transformer大行其道的同时,一些研究者开始质疑其效率和可扩展性。Transformer中固有的自注意力机制虽然强大,但也带来了计算复杂度高的问题。当处理长序列时,所需的算力会按序列长度的平方增加,导致计算成本高昂且占用大量内存。

基于Transformer的局限性,许多非Transformer架构应运而生,包括中国的RWKV、Meta的Mega、微软亚研的RetNet、DeepMind的Hawk和Griffin等。这些研究大多在原有的RNN基础上,针对Transformer的缺陷和局限性进行改进,试图开发出更高效、更接近人类思考方式的架构。

非Transformer架构的主要流派

当前的非Transformer研究主要分为两个流派:

  1. 完全用recurrent(循环)结构替代attention:以RWKV、Mamba和S4为代表。这类方法通过固定内存来记住前面的信息,但目前来看,要达到更长的序列长度仍面临挑战。

  2. 将full attention的密集结构变得稀疏:以Meta的Mega为代表。这种方法在计算中不再需要计算attention矩阵中的每一个元素,从而提高模型效率。

具体分析

  • RWKV:作为国产开源的首个非Transformer架构大语言模型,RWKV已迭代至第六代。其核心思想是用线性注意力机制近似全注意力机制,试图结合RNN和Transformer的优点,同时规避两者的缺点。

  • Mamba:由卡内基梅隆大学和Together.AI的研究者提出,完全采用循环结构而不使用attention。其优势在于内存大小固定,但外推能力较弱。

  • RetNet:微软亚研提出,引入多尺度retention机制替代多头注意力。其推理成本与序列长度无关,解码速度和内存使用效率显著优于Transformer。

  • Mega:Meta提出,采用稀疏attention矩阵结合循环结构。通过限制attention的窗口范围,同时结合滚动记忆形式,实现高效计算。

  • Hawk和Griffin:DeepMind团队提出,属于带门控的线性RNN,与Mega类似,采用混合模型架构。

Transformer能否被颠覆?

虽然当前非Transformer研究提出的模型在测评效果上普遍优于同等规模的Transformer,但它们共同面临的考验是:当规模扩大到当前Transformer模型的大小时,是否还能保持性能和效率优势?目前参数最大的RWKV有140亿参数,而GPT-3已达1750亿参数,GPT-4更是传闻有1.8万亿参数。

多位投资人对非Transformer研究持谨慎态度,一方面担心其长期发展潜力,另一方面认为未来硬件和算力的进步可能会降低当前架构的优劣势。RWKV虽然在端侧应用中展现出一定优势,但也有观点认为,如果要达到OpenAI的水平,还需要在框架复杂度和性能之间找到更好的平衡。

未来展望

Transformer目前的地位依然稳固,其形成的生态护城河难以逾越。无论是硬件、系统还是应用,都围绕Transformer进行适配和优化。然而,根据科技发展的规律,很难有一个架构能永远主导AI领域。未来,非Transformer架构需要继续证明自己的潜力,同时Transformer架构也需要突破现有瓶颈。

对于中国读者而言,这篇文章提供了对当前AI技术前沿的深入了解,有助于理解Transformer及其替代方案的技术特点和未来发展方向。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号