问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

用数据说话!线性注意力登顶多个顶会!

创作时间:
作者:
@小白创作中心

用数据说话!线性注意力登顶多个顶会!

引用
CSDN
1.
https://m.blog.csdn.net/Aimoxin111/article/details/144845171

线性注意力机制作为近年来深度学习领域的重要创新,通过将注意力机制的计算复杂度从O(n^2)降低到O(n)或O(nlogn),显著提升了模型的计算效率。本文将详细介绍线性注意力机制的核心原理及其优势,并深入解析四篇相关领域的顶会论文,探讨其具体方法和创新点。

线性注意力(Linear Attention)是一种在神经网络中处理序列数据时对不同位置的信息进行加权融合的注意力机制。它与传统的基于Softmax的注意力机制不同,后者通常具有O(n^2)的时间和空间复杂度,其中n是序列长度。线性注意力通过使用线性函数来计算注意力权重,从而将复杂度降低到O(n)或O(nlogn),显著提高了计算效率。

线性注意力的优势

  • 计算效率更高:由于线性函数比非线性函数更简单,线性注意力在计算上更为高效。
  • 较好的可解释性:权重矩阵可以直接表示不同位置之间的相关程度,使得模型的决策过程更容易理解。
  • 泛化能力:一些研究表明,线性注意力支持跨模型和插件的零样本泛化,无需额外适配。

顶会论文精选

1. ICML: Gated Linear Attention Transformers with Hardware-Efficient Training

方法

  • FLASHLINEARATTENTION算法:提出了一种硬件高效的线性注意力算法,优化了内存移动与并行性之间的权衡。
  • 门控线性注意力(GLA):引入了一种数据依赖的门控机制,增强了线性注意力的表达能力,允许模型在训练过程中有效地处理长序列。
  • 训练速度提升:通过使用基于块的并行计算,显著提高了训练速度,GLA Transformer在与Mamba模型的比较中,展示了更高的训练吞吐量。
  • 长度泛化能力:GLA Transformer在长度泛化任务中表现出色,能够在训练时处理2K长度的序列,并在推理时有效地处理超过20K的序列。

创新点

  • 性能提升:GLA Transformer在中等规模语言建模实验中,与LLaMA架构的变换器和其他线性时间推理基线(如RetNet和Mamba)相比,表现出竞争力,尤其在长度泛化方面。
  • 训练效率:GLA Transformer的训练吞吐量高于同规模的Mamba模型,具体提升幅度未明确给出,但表明了显著的训练效率。
  • 内存效率:通过避免在Krein空间中的显式嵌入,减少了内存I/O成本,从而提高了算法的计算效率。
  • 数学基础:为处理不定核的方法提供了坚实的数学基础,并将核线性和二次判别扩展到可以处理不定核的更一般方法。

2. NIPS: Gated Slot Attention for Efficient Linear-Time Sequence Modeling

方法

  • 门控槽注意力(GSA):通过引入门控机制增强了ABC模型,利用上下文感知的记忆读取和自适应遗忘机制,提高了记忆容量。
  • 两层GLA结构:GSA由两层GLA通过softmax连接而成,利用硬件高效的块实现进行训练。
  • 记忆更新机制:采用了多重记忆槽的更新机制,允许多个数据令牌写入同一槽,优化了信息的存储和检索。

创新点

  • 性能提升:GSA在需要上下文回忆的任务中表现优越,尤其是在T2R设置中,GSA超越了大型递归语言模型(如RWKV6-7B和Mamba-7B),具体提升幅度未明确给出。
  • 训练效率:GSA的训练和推理效率显著提高,能够在不增加状态大小的情况下,处理更复杂的任务。
  • 记忆利用:通过采用门控机制,GSA显著提高了记忆的利用效率,允许模型在有限的状态大小下实现更好的性能。

3. ICLR: Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

方法

  • RG-LRU层:提出了一种新的门控线性递归层,结合了局部注意力和门控机制,增强了模型的记忆能力。
  • 混合模型:Griffin模型将门控线性递归与局部注意力结合,利用局部注意力处理短期依赖,同时保持线性递归处理长期依赖的能力。
  • 高效训练:通过优化模型并行性和内存使用,Griffin在训练和推理阶段都表现出色。

创新点

  • 性能提升:Griffin在所有模型规模上都能与Llama-2匹敌,尽管训练数据量减少了约6倍,具体数值未明确给出。
  • 推理速度:Griffin在推理阶段的吞吐量显著高于MQA Transformer,尤其在处理长序列时表现优越,具体提升幅度未明确给出。
  • 长序列建模能力:Griffin能够有效处理超过训练长度的序列,展现出良好的外推能力,具体数值未明确给出。

4. ICLR: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

方法

  • ALiBi方法:提出了一种新的位置表示方法,使用线性偏置来调整查询-键注意力分数,消除了位置嵌入的需求。
  • 训练与推理分离:通过在训练时使用较短的输入序列,模型能够在推理时有效处理更长的序列。
  • 高效实现:ALiBi的实现简单,仅需对现有变换器代码进行少量修改,不增加运行时开销。

创新点

  • 性能提升:使用ALiBi的模型在推理时能够处理比训练时长2倍的序列,且在相同长度的输入下,表现出与使用正弦位置嵌入模型相当的困惑度,具体数值未明确给出。
  • 训练效率:ALiBi模型在训练时比正弦模型快11%,并且内存使用减少11%。
  • 外推能力:ALiBi允许模型在推理时有效外推,具体外推能力未明确给出。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号