一文搞懂Transformer中的三种注意力机制
一文搞懂Transformer中的三种注意力机制
Transformer中的注意力机制是自然语言处理领域的重要概念,但其原理往往让人感到晦涩难懂。本文将通过问答形式,深入浅出地讲解Transformer中的三种注意力机制:Self Attention、Cross Attention和Causal Attention。
Transformer中的三种注意力机制
一、Self Attention
疑问一:图中编码器明明写的是Multi-Head Attention,怎么就说是Self Attention?
编码器的Self Attention
先了解三个概念:Scaled Dot-Product Attention、Self Attention、Multi-Head Attention
Scaled Dot-Product Attention和Multi-Head Attention
Scaled Dot-Product Attention(缩放点积注意力):输入包括维度为dk的查询(queries)和键(keys),以及维度为dv的值(values)。我们计算查询与所有键的点积,每个点积结果都除以√dk,然后应用softmax函数,以得到注意力分数。
Self Attention(自注意力):对同一个序列,通过缩放点积注意力计算注意力分数,最终对值向量进行加权求和,从而得到输入序列中每个位置的加权表示。
Multi-Head Attention(多头注意力):多个注意力头并行运行,每个头都会独立地计算注意力权重和输出,然后将所有头的输出拼接起来得到最终的输出。
疑问解答:Scaled Dot-Product Attention、Self Attention、Multi-Head Attention实际上说的是同一件事,从不同维度解答如何获取同一个序列中每个位置的注意力权重。图上标注Multi-Head Attention强调需要多个头计算注意力权重。
Transformer第一个注意力(Self Attention)更严谨的描述应该为:编码器输入序列通过Multi-Head Self Attention(多头自注意力)计算注意力权重。
二、Cross Attention
疑问二:图中编码器明明写的也是Multi-Head Attention,怎么就说是Cross Attention?
编码器-解码器的Cross Attention
先了解一个概念:Cross Attention
Cross Attention(交叉注意力):输入来自两个不同的序列,一个序列用作查询(Q),另一个序列提供键(K)和值(V),实现跨序列的交互。
Cross Attention与Self Attention的区别:
- 输入来源:
- Cross Attention:来自两个不同的序列,一个来自编码器,一个来自解码器
- Self Attention:来自编码器的同一序列
- 实现目标:
- Cross Attention:解码器序列用作查询(Q),编码器序列提供键(K)和值(V),用于在编码器-解码器两个不同序列之间进行注意力转移。
- Self Attention:查询(Q)、键(K)和值(V)均来自编码器同一序列,实现编码器序列内部的注意力计算。
疑问解答:Cross Attention、Multi-Head Attention实际上说的是也同一件事,从不同维度解答两个不同序列之间如何进行注意力转移。图上标注Multi-Head Attention强调需要多个头进行注意力转移计算。
Transformer第二个注意力(Cross Attention)更严谨的描述应该为:编码器-解码器两个序列通过Multi-Head Cross Attention(多头交叉注意力)进行注意力转移。
三、Causal Attention
疑问三:图中编码器明明写的也是Masked Multi-Head Attention,怎么就说是Causal Attention?
解码器的Causal Attention
先了解四个概念:Predict The Next Word、Masked Language Model、Autoregressive、Causal Attention
Predict The Next Word(预测下一个词):模型通常需要基于已经生成的词来预测下一个词。这种特性要求模型在预测时不能“看到”未来的信息,以避免预测受到未来信息的影响。
Masked Language Model(掩码语言模型):遮盖一些词语来让模型学习预测被遮盖的词语,从而帮助模型学习语言规律。
Autoregressive(自回归):在生成序列的某个词时,解码器会考虑已经生成的所有词,包括当前正在生成的这个词本身。为了保持自回归属性,即模型在生成序列时只能基于已经生成的信息进行预测,我们需要防止解码器中的信息向左流动。换句话说,当解码器在生成第t个词时,它不应该看到未来(即第t+1, t+2,...等位置)的信息。
Causal Attention(因果注意力):为了确保模型在生成序列时,只依赖于之前的输入信息,而不会受到未来信息的影响。Causal Attention通过掩盖(mask)未来的位置来实现这一点,使得模型在预测某个位置的输出时,只能看到该位置及其之前的输入。
疑问解答:Causal Attention、Mask Multi-Head Attention实际上说的是也同一件事,解码器中Self Attention如何结合Causal Attention来保持自回归属性。
**Mask Multi-Head Attention强调使用了多个独立的注意力头,每个头都可以学习不同的注意力权重,从而增强模型的表示能力。而Causal Attention则强调了模型在预测时只能依赖于已经生成的信息,不能看到未来的信息。
Transformer第三个注意力(Causal Attention)更严谨的描述应该为:解码器的单个序列通过Multi-Head Cross Self Attention(多头因果自注意力)进行注意力计算。