资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度学习中的自注意力机制：原理、实现与应用

创作时间:

作者:

@小白创作中心

深度学习中的自注意力机制：原理、实现与应用

引用

CSDN

https://blog.csdn.net/fengdu78/article/details/138203530

自注意力机制（Self-Attention）是Transformer架构的核心组件，它使得模型能够并行处理序列数据，同时保持对序列中各个位置信息的敏感性。本文将从注意力机制的基本概念出发，深入讲解自注意力机制的原理、实现方法以及与传统RNN的区别。

一、注意力机制和自注意力机制的区别

传统的注意力机制发生在目标（Target）元素和源（Source）元素之间。简单来说，注意力机制中的权重计算需要目标信息的参与。例如，在Encoder-Decoder模型中，注意力权重的计算不仅需要Encoder的隐状态，还需要Decoder的隐状态。

而自注意力机制则不同，它不是输入语句和输出语句之间的注意力机制，而是输入语句内部元素之间或输出语句内部元素之间的注意力机制。例如，在Transformer中计算权重参数时，将文字向量转换为对应的K、Q、V，只需要在Source处进行矩阵操作，不需要Target中的信息。

二、引入自注意力机制的目的

神经网络接收的输入是很多大小不一的向量，并且不同向量之间有一定的关系。但是，在实际训练时，全连接神经网络往往无法充分发挥这些输入之间的关系，导致模型训练效果不佳。例如，在机器翻译、词性标注、语义分析等自然语言处理问题中，输入向量之间存在复杂的依赖关系。

自注意力机制的引入就是为了解决这个问题。它通过让模型注意到输入中不同部分之间的相关性，从而提高模型的表达能力。

三、Self-Attention详解

3.1 单个输出

对于输入的一组向量，自注意力机制会输出同样长度的一组向量。以四个词向量为例：

对于每一个输入向量a，经过蓝色部分self-attention之后都输出一个向量b，这个向量b是考虑了所有的输入向量对a产生的影响才得到的。下面以b1的输出为例：

首先，如何计算sequence中各向量与a1的关联程度，有下面两种方法：

Dot-product方法是将两个向量乘上不同的矩阵w，得到q和k，做点积得到α，Transformer中就用到了Dot-product。

上图中绿色的部分就是输入向量a1和a2，灰色的Wq和Wk为权重矩阵，需要学习来更新，用a1去和Wq相乘，得到一个向量q，然后使用a2和Wk相乘，得到一个数值k。最后使用q和k做点积，得到α。α也就是表示两个向量之间的相关联程度。

上图右边加性模型这种机制也是输入向量与权重矩阵相乘，后相加，然后使用tanh投射到一个新的函数空间内，再与权重矩阵相乘，得到最后的结果。

可以计算每一个α（又称为attention score），q称为query，k称为key：

另外，也可以计算a1和自己的关联性，再得到各向量与a1的相关程度之后，用softmax计算出一个attention distribution，这样就把相关程度归一化，通过数值就可以看出哪些向量是和a1最有关系。

下面需要根据 α′ 抽取sequence里重要的资讯：

先求v，v就是键值value，v和q、k计算方式相同，也是用输入a乘以权重矩阵W，得到v后，与对应的α′ 相乘，每一个v乘与α'后求和，得到输出b1。

如果 a1 和 a2 关联性比较高， α1,2′ 就比较大，那么，得到的输出 b1 就可能比较接近 v2 ，即attention score决定了该vector在结果中占的分量。

3.2 矩阵形式

用矩阵运算表示b1的生成：

Step 1：q、k、v的矩阵形式生成

写成矩阵形式：

把4个输入a拼成一个矩阵，这个矩阵有4个column，也就是a1到a4，

乘上相应的权重矩阵W，得到相应的矩阵Q、K、V，分别表示query、key和value。三个W是我们需要学习的参数。

Step 2：利用得到的Q和K计算每两个输入向量之间的相关性，也就是计算attention的值α， α的计算方法有多种，通常采用点乘的方式。

先针对q1，通过与k1到k4拼接成的矩阵K相乘，得到

拼接成的矩阵。

同样，q1到q4也可以拼接成矩阵Q直接与矩阵K相乘：

公式为：

矩阵形式：

矩阵A中的每一个值记录了对应的两个输入向量的Attention的大小α，A'是经过softmax归一化后的矩阵。

Step 3：利用得到的A'和V，计算每个输入向量a对应的self-attention层的输出向量b：

写成矩阵形式：

对self-attention操作过程做个总结，输入是I，输出是O：

矩阵Wq、 Wk 、Wv是需要学习的参数。

四、Multi-head Self-attention

self-attention的进阶版本Multi-head Self-attention，多头自注意力机制

因为相关性有很多种不同的形式，有很多种不同的定义，所以有时不能只有一个q，要有多个q，不同的q负责不同种类的相关性。

对于1个输入a

首先，和上面一样，用a乘权重矩阵W得到，然后再用乘两个不同的W，得到两个不同的，i代表的是位置，1和2代表的是这个位置的第几个q。

这上面这个图中，有两个head，代表这个问题有两种不同的相关性。

同样，k和v也需要有多个，两个k、v的计算方式和q相同，都是先算出来ki和vi，然后再乘两个不同的权重矩阵。

对于多个输入向量也一样，每个向量都有多个head：

算出来q、k、v之后怎么做self-attention呢？

和上面讲的过程一样，只不过是1那类的一起做，2那类的一起做，两个独立的过程，算出来两个b。

对于1：

对于2：

这只是两个head的例子，有多个head过程也一样，都是分开算b。

五、Positional Encoding

在训练self attention的时候，实际上对于位置的信息是缺失的，没有前后的区别，上面讲的a1,a2,a3不代表输入的顺序，只是指输入的向量数量，不像rnn，对于输入有明显的前后顺序，比如在翻译任务里面，对于“机器学习”，机器学习依次输入。而self-attention的输入是同时输入，输出也是同时产生然后输出的。

如何在Self-Attention里面体现位置信息呢？就是使用Positional Encoding

如果ai加上了ei，就会体现出位置的信息，i是多少，位置就是多少。

vector长度是人为设定的，也可以从数据中训练出来。