深入理解注意力机制【Self-Attention,自注意力模型】

创作时间:

作者:

@小白创作中心

深入理解注意力机制【Self-Attention,自注意力模型】

引用

CSDN

https://blog.csdn.net/v20000727/article/details/140447207

在自然语言处理领域，注意力机制（Attention Mechanism）已经成为提升模型性能的重要工具。传统的Encoder-Decoder结构在处理长序列时，常常因为统一语义特征向量的长度限制而导致性能瓶颈。然而，注意力机制通过引入动态上下文向量，成功解决了这一问题，使得模型能够在每个时间步选择与当前输出最相关的信息。

本篇博客将详细介绍注意力机制的基本原理、一般形式以及自注意力模型，并通过具体例子和图示来更好地理解这些关键概念。

一、语言模型实例

在Encoder-Decoder结构中，Encoder把所有的输入序列都编码成一个统一的语义特征c再解码：

因此， c中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个c可能存不下那么多信息，就会造成翻译精度的下降。

Attention机制通过在每个时间输入不同的c来解决这个问题，下图是带有Attention机制的Decoder：

每一个c会自动去选取与当前所要输出的y最合适的上下文信息。具体来说:

用a_ij 衡量 Encoder中第j阶段的h_j 和解码时第i阶段的相关性;
最终Decoder中第i阶段的输入的上下文信息c_i 就来自于所有h_j 对a_ij 的加权和。

以机器翻译为例（将中文翻译成英文）：

输入的序列是“我爱中国”:

因此, Encoder中的h₁、 h₂、 h₃、 h₄ 就可以分别看做是“我”、 “爱”、“中”、“国”所代表的信息;
在翻译成英语时, 第一个上下文c₁ 应该和“我”这个字最相关, 因此对应的a₁₁ 就比较大, 而相应的a₁₂ 、 a₁₃ 、 a₁₄ 就比较小;
c₂应该和“爱”最相关, 因此对应的a₂₂ 就比较大;
最后的c₃ 和h₃ 、 h₄ 最相关, 因此a₃₃ 、 a₃₄ 的值就比较大。

这些权重a_ij 是怎么来的?事实上,a_ij 同样是从模型中学出的, 它实际和Decoder的第i阶段的隐状态、Encoder第j个阶段的隐状态有关，在下面一小节我们会介绍a_ij 如何计算.

这里的c₁ , c₂ , c₃ 就是attention值;

二、注意力机制一般形式

刚刚我们是基于Encoder-Decoder模型来介绍attention机制的，下面我们更一般的来介绍注意力机制.

用X = [ x₁ , ⋯ , x_N ] ∈ R^D×N表示N组输入信息，其中D维向量x_n ∈ R^D , n ∈ [ 1 , N ] 表示一组输入信息.为了节省计算资源，不需要将所有信息都输入神经网络，只需要从X中选择一些和任务相关的信息.注意力机制的计算可以分为两步：

一是在所有输入信息上计算注意力分布；
二是根据注意力分布来计算输入信息的加权平均.

为了从N个输入向量[ x₁ , ⋅ ⋅ ⋅ , x_N ]中选择出和某个特定任务相关的信息，我们需要引入一个和任务相关的表示，称为查询向量(Query Vector), 并通过一个打分函数来衡量每个输入向量和查询向量之间的相关性.

给定一个和任务相关的查询向量q,我们用注意力变量z ∈ [ 1 , N ] 来表示被选择信息的索引位置，即z = n 表示选择了第n个输入向量.为了方便计算，我们采用一种“软性”的信息选择机制.首先计算在给定q和X下，选择第n个输入向量的概率α_n,

α_n = p(z=n|X,q) = softmax(s(x_n, q)) = exp(s(x_n, q)) / ∑_j=1^Nexp(s(x_j, q)),

其中α_n 称为注意力分布( Attention Distribution),s ( x , q ) 为注意力打分函数.

注意力打分函数s ( x , q ) ：计算输入向量和查询向量之间的相关性，常用如下模型
∙ 加性模型: s(x,q) = v^Ttanh(Wx+Uq).
∙ 点积模型: s(x,q) = x^Tq.
∙ 缩放点积模型: s(x,q) = x^Tq / √D.
∙ 双线性模型: s(x,q) = x^TWq.

这里W , U , v 为可学习的参数，D 为输入向量的维度.

Note: