旋转位置嵌入(RoPE):一种增强Transformer性能的创新方法
旋转位置嵌入(RoPE):一种增强Transformer性能的创新方法
Transformer架构是自然语言处理领域的核心技术之一,而位置编码则是Transformer架构中的关键组件。近年来,研究者们提出了多种位置编码方法,包括绝对位置编码和相对位置编码等。本文将介绍一种最新的位置编码方法——旋转位置嵌入(RoPE),它通过旋转矩阵编码绝对位置信息,同时显式建模相对位置依赖,从而提高了自注意力机制的效率,特别是在处理长文本任务时表现优越。
Abstract
位置编码最近在transformer架构中表现出良好的效果。它为序列中不同位置元素之间的依赖建模提供了有价值的监督。在本文中,首先研究了将位置信息集成到基于transformer的语言模型学习过程中的各种方法。然后,提出了一种新方法,称为旋转位置嵌入(RoPE),以有效利用位置信息。具体而言,所提出的RoPE使用旋转矩阵编码绝对位置,同时在自注意力公式中融入了显式的相对位置依赖关系。值得注意的是,RoPE具备了多种有价值的特性,包括序列长度的灵活性、随着相对距离增加而衰减的跨标记依赖性,以及为线性自注意力提供相对位置编码的能力。最后,在各种长文本分类基准数据集上评估了增强的transformer,称为RoFormer,结果表明其始终优于其他替代方案。
Introduction
词的顺序对自然语言理解具有重要价值。基于递归神经网络(RNN)的模型通过沿时间维度递归计算隐藏状态来编码tokens的顺序。基于卷积神经网络(CNN)的模型通常被认为是位置无关的,但最近的研究表明,常用的填充操作可以隐式地学习位置信息。近年来,基于Transformer 的预训练语言模型(PLMs)取得了各种自然语言处理(NLP)任务的最先进性能,包括上下文表示学习、机器翻译和语言建模等。与基于RNN和CNN的模型不同,PLM利用自注意力机制来语义性地捕捉给定语料库的上下文表示。因此,PLM在并行化方面相比RNN取得了显著改善,并在建模更长的跨关系token方面优于CNN。
值得注意的是,当前预训练语言模型(PLM)的自注意力架构被认为是位置无关的。基于这一观点,提出了多种方法将位置信息编码到学习过程中。一方面,通过预定义函数生成的绝对位置编码被添加到上下文表示中,同时也有可训练的绝对位置编码被提出。另一方面,之前的研究主要集中在相对位置编码上,这种方法通常将相对位置信息编码到注意力机制中。除了这些方法外,有研究者从神经常微分方程(Neural ODE)的角度建模位置编码的依赖关系,另一些研究者则在复数空间中建模位置信息。尽管这些方法有效,但它们通常将位置信息添加到上下文表示中,因此不适合线性自注意力架构。
在本文中,介绍了一种新方法,称为旋转位置嵌入(Rotary Position Embedding,RoPE),旨在将位置信息融入预训练语言模型(PLMs)的学习过程中。具体而言,RoPE通过旋转矩阵编码绝对位置,同时在自注意力公式中纳入显式的相对位置依赖关系。值得注意的是,RoPE相较于现有方法具有一些优越特性,包括序列长度的灵活性、随着相对距离增加而衰减的tokens间依赖性,以及为线性自注意力提供相对位置编码的能力。在多个长文本分类基准数据集上的实验结果表明,增强的transformer模型RoFormer在性能上优于基线模型,从而验证了所提出的RoPE的有效性。
本文的贡献如下:
调查了现有的相对位置编码方法,发现它们大多基于将位置编码添加到上下文表示的分解思想。本文引入了一种新方法,称为旋转位置嵌入(Rotary Position Embedding,RoPE),旨在将位置信息融入预训练语言模型(PLMs)的学习过程中。其关键思想是通过将上下文表示与具有清晰理论解释的旋转矩阵相乘来编码相对位置。
研究了RoPE的特性,表明它随着相对距离的增加而衰减,这对于自然语言编码是期望的。认为,之前基于相对位置编码的方法与线性自注意力并不兼容。
在多个长文本基准数据集上评估了所提出的RoFormer。实验结果表明,它的性能始终优于其他替代模型。
本文其余部分的组织结构如下:在第3节中建立自注意力架构中位置编码问题的正式描述,并回顾相关的前人研究。随后,在第4节中描述旋转位置编码(RoPE)并研究其特性。第5节报告实验结果。最后,在第6节中对本文进行总结。