资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

一文搞懂Transformer中的三种注意力机制

创作时间:

作者:

@小白创作中心

一文搞懂Transformer中的三种注意力机制

引用

来源

https://53ai.com/news/qianyanjishu/1079.html

Transformer中的注意力机制是自然语言处理领域的重要概念，但其原理往往让人感到晦涩难懂。本文将通过问答形式，深入浅出地讲解Transformer中的三种注意力机制：Self Attention、Cross Attention和Causal Attention。

Transformer中的三种注意力机制

一、Self Attention

疑问一：图中编码器明明写的是Multi-Head Attention，怎么就说是Self Attention？

编码器的Self Attention

先了解三个概念：Scaled Dot-Product Attention、Self Attention、Multi-Head Attention

Scaled Dot-Product Attention和Multi-Head Attention

Scaled Dot-Product Attention（缩放点积注意力）：输入包括维度为dk的查询（queries）和键（keys），以及维度为dv的值（values）。我们计算查询与所有键的点积，每个点积结果都除以√dk，然后应用softmax函数，以得到注意力分数。

Self Attention（自注意力）：对同一个序列，通过缩放点积注意力计算注意力分数，最终对值向量进行加权求和，从而得到输入序列中每个位置的加权表示。

Multi-Head Attention（多头注意力）：多个注意力头并行运行，每个头都会独立地计算注意力权重和输出，然后将所有头的输出拼接起来得到最终的输出。

疑问解答：Scaled Dot-Product Attention、Self Attention、Multi-Head Attention实际上说的是同一件事，从不同维度解答如何获取同一个序列中每个位置的注意力权重。图上标注Multi-Head Attention强调需要多个头计算注意力权重。

Transformer第一个注意力（Self Attention）更严谨的描述应该为：编码器输入序列通过Multi-Head Self Attention（多头自注意力）计算注意力权重。

二、Cross Attention

疑问二：图中编码器明明写的也是Multi-Head Attention，怎么就说是Cross Attention？

编码器-解码器的Cross Attention

先了解一个概念：Cross Attention

Cross Attention（交叉注意力）：输入来自两个不同的序列，一个序列用作查询（Q），另一个序列提供键（K）和值（V），实现跨序列的交互。

Cross Attention与Self Attention的区别：

输入来源：
Cross Attention：来自两个不同的序列，一个来自编码器，一个来自解码器
Self Attention：来自编码器的同一序列
实现目标：
Cross Attention：解码器序列用作查询（Q），编码器序列提供键（K）和值（V），用于在编码器-解码器两个不同序列之间进行注意力转移。
Self Attention：查询（Q）、键（K）和值（V）均来自编码器同一序列，实现编码器序列内部的注意力计算。

疑问解答：Cross Attention、Multi-Head Attention实际上说的是也同一件事，从不同维度解答两个不同序列之间如何进行注意力转移。图上标注Multi-Head Attention强调需要多个头进行注意力转移计算。

Transformer第二个注意力（Cross Attention）更严谨的描述应该为：编码器-解码器两个序列通过Multi-Head Cross Attention（多头交叉注意力）进行注意力转移。

三、Causal Attention

疑问三：图中编码器明明写的也是Masked Multi-Head Attention，怎么就说是Causal Attention？

解码器的Causal Attention

先了解四个概念：Predict The Next Word、Masked Language Model、Autoregressive、Causal Attention

Predict The Next Word（预测下一个词）：模型通常需要基于已经生成的词来预测下一个词。这种特性要求模型在预测时不能“看到”未来的信息，以避免预测受到未来信息的影响。

Masked Language Model（掩码语言模型）：遮盖一些词语来让模型学习预测被遮盖的词语，从而帮助模型学习语言规律。

Autoregressive（自回归）：在生成序列的某个词时，解码器会考虑已经生成的所有词，包括当前正在生成的这个词本身。为了保持自回归属性，即模型在生成序列时只能基于已经生成的信息进行预测，我们需要防止解码器中的信息向左流动。换句话说，当解码器在生成第t个词时，它不应该看到未来（即第t+1, t+2,...等位置）的信息。

Causal Attention（因果注意力）：为了确保模型在生成序列时，只依赖于之前的输入信息，而不会受到未来信息的影响。Causal Attention通过掩盖（mask）未来的位置来实现这一点，使得模型在预测某个位置的输出时，只能看到该位置及其之前的输入。