Transformer中的QKV来源详解:编码器与解码器的异同
创作时间:
作者:
@小白创作中心
Transformer中的QKV来源详解:编码器与解码器的异同
引用
CSDN
1.
https://blog.csdn.net/flyfish1986/article/details/138499594
Transformer模型中的编码器和解码器的QKV来源问题一直是许多研究者关注的重点。本文将详细解释Transformer中的注意力机制,帮助读者更好地理解QKV的来源。
Transformer - 注意力机制
在Transformer模型中,注意力机制是其核心组成部分。Scaled Dot-Product Attention是Transformer中使用的一种注意力机制,其计算过程可以分为以下几个步骤:
- 计算查询向量(Query)和键向量(Key)之间的点积
- 对点积结果进行缩放处理
- 应用softmax函数得到注意力权重
- 将注意力权重与值向量(Value)相乘,得到最终的输出
编码器中的Self-Attention
在编码器的self-attention中,QKV都来自source embedding。具体来说,输入的source embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
解码器中的Self-Attention
在解码器的self-attention中,QKV都来自target embedding。同样地,输入的target embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
Encoder-Decoder Attention
在encoder-decoder-attention中,QKV的来源有所不同:
- Q是从target embedding来的
- K和V是从contextualized source embedding来的
这种设计使得解码器能够关注到编码器的输出,从而实现序列到序列的转换。
详细示意图
为了更好地理解上述过程,下面给出详细的示意图:
Self-Attention
Encoder-Decoder Attention
总结
- 解码器内部自注意力的QKV均源自解码器自身
- 编码器-解码器注意力中的Q来自解码器
- K和V则来自编码器
其他称呼
"编码器-解码器注意力"和"交叉注意力"是同一种注意力机制的不同称呼。其他常见的名称还包括:
- Encoder-decoder attention
- Inter-attention
- Cross attention
热门推荐
胸膜炎吃什么药好
全网聚焦·春节档电影|《蛟龙行动》:七年再出海,“蛟龙”掀风浪
《蛟龙行动》总制片人呼吁增加排片,助力国产佳作赢得更多观众关注
乐高迷必看!遥控车搭建秘籍大揭秘
粘合剂公司如何通过消防培训提升安全?
消防培训:职场安全的守护神
粘合剂公司消防培训与演练计划
开学必备!这份清单让你轻松应对新学期
开学季,如何让学生爱上运动?
《王者荣耀》:暴击铠 vs 半肉铠,谁更胜一筹?
卢纶《和张仆射塞下曲》:边塞诗意山水画
盛唐边塞诗的生命哲学:从少年到老将的生命感悟
安顺镇宁夜郎洞全攻略!水洞旱洞双体验,尽享自然与文化之美!
高血脂患者可以喝酒吗?提醒:有这几种疾病的人,一口酒都别喝
宪法如何守护你的基本权利?
探索洪都拉斯国旗的设计与象征:历史与文化的深刻反映
“网红鱼塘”如何养成? 塘边解题:探路“后生态养殖”
智慧养殖业:生态鱼塘农业数字孪生监控
科技创新为农业生产增添新动能
东北特色小吃炒粉制作教程:一碗淀粉,两碗水,教你在家复刻街头美味
三亚绝美摄影指南:亚龙湾、天涯海角、蜈支洲岛必打卡!
三亚避寒胜地:天涯海角、南山寺、蜈支洲岛必打卡!
三亚冬日水上运动大推荐!
科技赋能中小银行网点转型:从管理优化到人才培养
寒假养成这些好习惯,孩子受益终身!
春节后呼吸疾病防护指南:守护健康,从“呼吸”开始
氢能车火爆,铂金成关键材料?
全球经济动荡:如何应对铂金价格波动?
春节聚餐高峰,如何预防幽门螺杆菌感染?
李大妈的幽门螺旋杆菌饮食调理经验分享