Transformer中的QKV来源详解:编码器与解码器的异同
创作时间:
作者:
@小白创作中心
Transformer中的QKV来源详解:编码器与解码器的异同
引用
CSDN
1.
https://blog.csdn.net/flyfish1986/article/details/138499594
Transformer模型中的编码器和解码器的QKV来源问题一直是许多研究者关注的重点。本文将详细解释Transformer中的注意力机制,帮助读者更好地理解QKV的来源。
Transformer - 注意力机制
在Transformer模型中,注意力机制是其核心组成部分。Scaled Dot-Product Attention是Transformer中使用的一种注意力机制,其计算过程可以分为以下几个步骤:
- 计算查询向量(Query)和键向量(Key)之间的点积
- 对点积结果进行缩放处理
- 应用softmax函数得到注意力权重
- 将注意力权重与值向量(Value)相乘,得到最终的输出
编码器中的Self-Attention
在编码器的self-attention中,QKV都来自source embedding。具体来说,输入的source embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
解码器中的Self-Attention
在解码器的self-attention中,QKV都来自target embedding。同样地,输入的target embedding会通过线性变换生成Q、K、V三个向量,然后进行注意力计算。
Encoder-Decoder Attention
在encoder-decoder-attention中,QKV的来源有所不同:
- Q是从target embedding来的
- K和V是从contextualized source embedding来的
这种设计使得解码器能够关注到编码器的输出,从而实现序列到序列的转换。
详细示意图
为了更好地理解上述过程,下面给出详细的示意图:
Self-Attention
Encoder-Decoder Attention
总结
- 解码器内部自注意力的QKV均源自解码器自身
- 编码器-解码器注意力中的Q来自解码器
- K和V则来自编码器
其他称呼
"编码器-解码器注意力"和"交叉注意力"是同一种注意力机制的不同称呼。其他常见的名称还包括:
- Encoder-decoder attention
- Inter-attention
- Cross attention
热门推荐
广东财经大学专业排名:2024年软科版完整榜单
【经济观察】银行周六、周日该不该休息?这届网友吵翻了!
做完斑后要注意什么饮食
加快建立城镇燃气安全长效机制
保护生态健康,防治地表水污染是全人类要做的头等大事
多动症孩子的家庭干预方法
建筑材料的质量如何衡量?这种衡量怎样依据行业标准?
早餐中不能缺乏蛋白质和膳食纤维?营养均衡又护心!
中国道士画家:道韵丹青,艺境天成
优化套期保值决策的实用策略与技巧
移动友好的网页设计
手机版网页如何查看源码
氮及其化合物性质知识点总结
2025年教师评估与反馈研修体会
唐朝繁星般闪耀的诗人群体——探究唐代诗人的卓越成就
李商隐最著名的诗十首,终于集齐了,你会背几首呢?
实战与理论并重,揭秘低空无人机产教融合的创新之路
英帝国的殖民扩张
夏季钓鱼技巧之起竿好时机(抓住钓鱼高峰期)
不用带卡!不用手机!医保支付可以刷“脸”卡了
风湿性关节炎主要表现是什么
12个春天手机摄影技巧,用手机把春天拍美吧
中国铁道博物馆:百年铁路发展史的生动见证
浙农林大专家多措并举助力竹产业高质量发展
广东邮政架起粤澳沟通交流的“绿色桥梁”
2025年还愿的意义与价值:从精神慰藉到社会和谐
一线城市楼市“银十”开门红:新房认购量激增,二手房交易活跃
红薯什么时候吃减肥效果最好?专家解读最佳食用时段
SEO基础知识:什么是H标签(Header Tags)?如何正确使用
18岁青年同居现象解析:普遍性、原因与影响