问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Transformer中的QKV来源详解:编码器与解码器的异同

创作时间:
作者:
@小白创作中心

Transformer中的QKV来源详解:编码器与解码器的异同

引用
CSDN
1.
https://blog.csdn.net/flyfish1986/article/details/138499594

Transformer模型中的编码器和解码器的QKV来源问题一直是许多研究者关注的重点。本文将详细解释Transformer中的注意力机制,帮助读者更好地理解QKV的来源。

Transformer - 注意力机制

在Transformer模型中,注意力机制是其核心组成部分。Scaled Dot-Product Attention是Transformer中使用的一种注意力机制,其计算过程可以分为以下几个步骤:

  1. 计算查询向量(Query)和键向量(Key)之间的点积
  2. 对点积结果进行缩放处理
  3. 应用softmax函数得到注意力权重
  4. 将注意力权重与值向量(Value)相乘,得到最终的输出

编码器中的Self-Attention

在编码器的self-attention中,QKV都来自source embedding。具体来说,输入的source embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。

解码器中的Self-Attention

在解码器的self-attention中,QKV都来自target embedding。同样地,输入的target embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。

Encoder-Decoder Attention

在encoder-decoder-attention中,QKV的来源有所不同:

  • Q是从target embedding来的
  • K和V是从contextualized source embedding来的

这种设计使得解码器能够关注到编码器的输出,从而实现序列到序列的转换。

详细示意图

为了更好地理解上述过程,下面给出详细的示意图:

Self-Attention

Encoder-Decoder Attention

总结

  • 解码器内部自注意力的QKV均源自解码器自身
  • 编码器-解码器注意力中的Q来自解码器
  • K和V则来自编码器

其他称呼

"编码器-解码器注意力"和"交叉注意力"是同一种注意力机制的不同称呼。其他常见的名称还包括:

  • Encoder-decoder attention
  • Inter-attention
  • Cross attention
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号