资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

解锁Transformer核心！一文吃透自注意力机制

创作时间:

作者:

@小白创作中心

解锁Transformer核心！一文吃透自注意力机制

引用

51CTO

https://www.51cto.com/aigc/4390.html

在深度学习领域，Transformer架构凭借其卓越的性能和效率，已成为自然语言处理（NLP）和计算机视觉（CV）等领域的主流选择。而Transformer架构的核心创新，正是自注意力机制（Self-Attention Mechanism）。本文将深入浅出地解析这一机制的工作原理及其优势，帮助读者理解Transformer为何能在各种序列数据处理任务中大放异彩。

为什么需要自注意力机制？

传统的神经网络，如循环神经网络（RNN）在处理序列数据时，按顺序依次处理每个元素，对于长距离依赖的捕捉能力欠佳，会出现梯度消失或梯度爆炸问题。卷积神经网络（CNN）虽然擅长提取局部特征，但对于序列中元素间的全局关系把握不足。自注意力机制的出现，弥补了这些缺陷，让模型能在处理序列时，并行地关注所有位置的信息，对，自注意力机制的优势就是每个输出都会考虑整个句子的全局输入，如下图所示，每个输出b都考虑了所有的输入a，然后输出。

自注意力机制的优势

并行计算能力

与传统的循环神经网络（RNN）和卷积神经网络（CNN）不同，自注意力机制可以并行地计算序列中每个位置的输出。它无需像RNN那样顺序地处理每个时间步，也无需像CNN那样通过卷积核逐步滑动来提取特征，极大地提高了模型的训练速度，使其能够高效处理大规模数据，适应各种实时性要求较高的任务。

长序列处理能力

传统的序列模型在处理长序列数据时，容易出现梯度消失或梯度爆炸问题，导致难以捕捉长距离的依赖关系。自注意力机制可以直接计算序列中任意两个位置之间的依赖关系，不受距离的限制，能够有效地捕捉输入序列中的长程依赖信息，对于处理长文本、长视频等长序列数据具有明显优势。

动态适应性

自注意力机制能够根据输入序列的内容动态地分配注意力权重。在处理不同的输入时，它会自动关注与当前位置相关度更高的信息，忽略无关信息，对输入数据中的重要特征更加敏感，能自适应地学习到输入序列中的复杂模式和结构，提高模型的准确性和泛化能力。

全局信息捕捉能力

自注意力机制在计算每个位置的输出时，会考虑整个输入序列的所有位置信息，而不像CNN只能捕捉局部区域的信息。这使得它能够从全局视角对输入进行建模，更好地理解输入数据的整体语义和结构，在一些需要全局信息的任务中表现出色。

可解释性相对较强

相比于一些复杂的黑盒模型，自注意力机制具有一定的可解释性。通过注意力权重，我们可以直观地看到模型在处理每个位置时关注了哪些其他位置的信息，有助于理解模型的决策过程和对输入数据的理解方式，为模型的分析和改进提供了一定的依据。

自注意力机制的基本步骤

为了便于理解，我们以一个简单的文本例子来说明自注意力机制的计算过程。假设我们有一个包含三个单词的句子：“I love NLP”。

（一）词嵌入（Embedding）

首先，我们需要将每个单词转换为向量表示，即把文字转换成数字。这个过程称为词嵌入。词嵌入的方法有很多，one-hot-encoding，wordTovec等等，在这里我们就不展开讲解了，感兴趣的话后续可以做一个word embedding合集。

假设我们有一个简单的输入序列：[“我”，“喜欢”，“苹果”]，为方便理解，我们将每个词用3维向量表示。“我”：[0.1, 0.2, 0.3]；“喜欢”：[0.4, 0.5, 0.6]；“苹果”：[0.7, 0.8, 0.9]，这个输入序列构成一个3×3的矩阵X。

（二）位置编码

由于自注意力机制本身没有捕捉序列中元素位置信息的能力，它平等地对待输入序列中的每个元素，无法区分相同元素在不同位置的语义差异。而很多自然语言处理等任务中，序列的顺序至关重要，所以需要引入位置编码来给模型注入位置信息，帮助模型更好地理解序列的结构和语义。

实现方式有以下几种：

绝对位置编码：给每个位置赋予一个固定的编码向量，常见的是正弦余弦位置编码。对于第个位置，其位置编码向量的第维计算公式为：

当为偶数时，
当为奇数时，
其中，dmodel是位置编码向量的维度，i是位置索引。这种编码方式利用了正弦和余弦函数的周期性和单调性，能让模型学习到不同位置之间的相对距离关系。

相对位置编码：考虑的是元素之间的相对位置关系。例如，在计算某个位置的注意力时，会根据当前位置与其他位置的相对距离来调整注意力权重。比如，在语言模型中，相对位置编码可以帮助模型更好地处理句子中的指代关系等依赖于相对位置的语义信息。

（三）计算Query、Key和Value

自注意力机制引入了三个矩阵WQ、WK和WV，注意，这三个矩阵都是随即初始化并且可以通过反向传播梯度下降学习的矩阵。它们的维度通常是相同的。Transformer会对输入X分别通过三个不同的线性变换矩阵WQ、WK、WV来生成Query（查询）、Key（键）、Value（值）向量。

我们将输入矩阵分别与WQ、WK和WV相乘，得到Query矩阵、Key矩阵和Value矩阵。

（四）计算注意力分数（Attention Scores）

接下来，我们计算每个位置与其他位置之间的注意力分数。计算方法是将Query矩阵中的每一行与Key矩阵的每一行进行点积运算。公式如下所示：

什么事注意力？就是衡量当前位置与其他位置的关联程度的一个分数。通过这个分数我们可以知道该句子中与当前词汇最相关的词汇的是哪个，自注意力分数是多少。

（五）Softmax归一化

得到注意力分数后，我们使用Softmax函数对其进行归一化，将分数转换为概率分布，表示每个位置对其他位置的关注程度。

经过Softmax归一化后，每一行的注意力分数之和为1。

（六）计算输出

最后，我们将归一化后的注意力分数与Value矩阵相乘，得到自注意力机制的输出。

为什么要乘以v向量呢？主要是有以下两个原因：

信息聚合与加权

在自注意力机制中，通过计算Q（查询向量）和K（键向量）得到的注意力权重，反映的是不同位置之间的关联程度，但这些权重本身并不包含输入序列的具体语义信息。而V向量包含了输入序列中每个位置的具体特征信息。将注意力权重与V向量相乘，能够根据每个位置与当前位置的关联程度，对V向量所携带的信息进行加权聚合，从而得到一个综合考虑了全局依赖关系的输出向量，使输出能融合输入序列各位置的相关信息。

生成有意义的输出

注意力权重决定了对各个位置信息的关注程度，乘以V向量后，能将这种关注转化为对实际语义信息的筛选和整合。比如在处理文本时，不同的词语（位置）对于理解当前词语的语义重要性不同，通过注意力权重乘以V向量，模型可以突出与当前位置相关度高的信息，抑制无关或相关性低的信息，生成更准确、更有意义的输出，有助于模型更好地捕捉文本中的长距离依赖关系和语义结构。

这个输出矩阵的形状与输入相同相同，输出矩阵中的每一行，都综合考虑了输入序列中所有位置的信息，并且根据注意力分数对不同位置的Value进行了加权求和。

总结

自注意力机制是Transformer架构的核心创新点之一，它为处理序列数据提供了一种强大而高效的方式。通过理解自注意力机制的计算步骤，我们可以更好地理解Transformer模型在各种任务中表现出色的原因。无论是NLP中的机器翻译、文本生成，还是计算机视觉中的图像分类、目标检测等任务，Transformer及其自注意力机制都展现出了巨大的潜力，并且在不断推动深度学习技术的发展。