Transformer中的QKV来源详解:编码器与解码器的异同
创作时间:
作者:
@小白创作中心
Transformer中的QKV来源详解:编码器与解码器的异同
引用
CSDN
1.
https://blog.csdn.net/flyfish1986/article/details/138499594
Transformer模型中的编码器和解码器的QKV来源问题一直是许多研究者关注的重点。本文将详细解释Transformer中的注意力机制,帮助读者更好地理解QKV的来源。
Transformer - 注意力机制
在Transformer模型中,注意力机制是其核心组成部分。Scaled Dot-Product Attention是Transformer中使用的一种注意力机制,其计算过程可以分为以下几个步骤:
- 计算查询向量(Query)和键向量(Key)之间的点积
- 对点积结果进行缩放处理
- 应用softmax函数得到注意力权重
- 将注意力权重与值向量(Value)相乘,得到最终的输出
编码器中的Self-Attention
在编码器的self-attention中,QKV都来自source embedding。具体来说,输入的source embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
解码器中的Self-Attention
在解码器的self-attention中,QKV都来自target embedding。同样地,输入的target embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
Encoder-Decoder Attention
在encoder-decoder-attention中,QKV的来源有所不同:
- Q是从target embedding来的
- K和V是从contextualized source embedding来的
这种设计使得解码器能够关注到编码器的输出,从而实现序列到序列的转换。
详细示意图
为了更好地理解上述过程,下面给出详细的示意图:
Self-Attention
Encoder-Decoder Attention
总结
- 解码器内部自注意力的QKV均源自解码器自身
- 编码器-解码器注意力中的Q来自解码器
- K和V则来自编码器
其他称呼
"编码器-解码器注意力"和"交叉注意力"是同一种注意力机制的不同称呼。其他常见的名称还包括:
- Encoder-decoder attention
- Inter-attention
- Cross attention
热门推荐
冬枣和青枣的区别
青枣和冬枣哪个热量高
职业健康安全管理体系的主要步骤有哪些?
税务申报个体怎么申报
四川大学的口腔医学专业怎么样?附2024年录取分数线
安全第一:购车时别只看舒适,优先考虑安全配置
三高人群如何通过饮食改善肾脏健康
黑盒测试方法的优势与劣势分析【图文详解】
深入了解 SVG:揭秘网页设计中的矢量图优势
控制欲过强的应对方式与体验,伴侣强势管控带来的感受
葫芦种植时间与方法:从选地到后期管理的全程指南
航车是什么
打造“课间15分钟运动空间” 杭州这所学校鼓励学生走出教室动起来
如何辨别市场上的贴牌葡萄酒?
朋友催收短信发到我这里怎么办?两种情况处理方法不同
如何调整失恋的心态
热议 | 一本赚3万!初中毕业月入2万!代写回忆录是新风口还是新骗局?
基于HFSS的轨道角动量天线设计
帕金森晚上食用苹果:健康益处
ADC选型:参数及其具体意义
如何将AI格式转换为PSD分层图格式?图文教程详解!
三个月脚踝扭伤未愈?手术与保守治疗该如何选择!
朝阳多校划片入学怎么安排?2025小升初哪些人群可参加?
《聊斋·寄生》:一夫二妻的浪漫传奇与《花为媒》的现代演绎
旁听庭审需要什么手续
得房率越高越不好,影响居住品质
做好热点新闻报道的几个核心要点
如何分析股票市场的成交量变化?这种成交量变化如何反映市场供求关系?
拐弯让直行是怎样规定的
如何查询热力学数据库