问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Transformer中的QKV来源详解：编码器与解码器的异同

创作时间:

作者:

@小白创作中心

Transformer中的QKV来源详解：编码器与解码器的异同

引用

CSDN

1.

https://blog.csdn.net/flyfish1986/article/details/138499594

Transformer模型中的编码器和解码器的QKV来源问题一直是许多研究者关注的重点。本文将详细解释Transformer中的注意力机制，帮助读者更好地理解QKV的来源。

Transformer - 注意力机制

在Transformer模型中，注意力机制是其核心组成部分。Scaled Dot-Product Attention是Transformer中使用的一种注意力机制，其计算过程可以分为以下几个步骤：

计算查询向量（Query）和键向量（Key）之间的点积
对点积结果进行缩放处理
应用softmax函数得到注意力权重
将注意力权重与值向量（Value）相乘，得到最终的输出

编码器中的Self-Attention

在编码器的self-attention中，QKV都来自source embedding。具体来说，输入的source embedding会通过线性变换生成Q、K、V三个向量，然后进行注意力计算。

解码器中的Self-Attention

在解码器的self-attention中，QKV都来自target embedding。同样地，输入的target embedding会通过线性变换生成Q、K、V三个向量，然后进行注意力计算。

Encoder-Decoder Attention

在encoder-decoder-attention中，QKV的来源有所不同：

Q是从target embedding来的
K和V是从contextualized source embedding来的

这种设计使得解码器能够关注到编码器的输出，从而实现序列到序列的转换。

详细示意图

为了更好地理解上述过程，下面给出详细的示意图：

Self-Attention

Encoder-Decoder Attention

总结

解码器内部自注意力的QKV均源自解码器自身
编码器-解码器注意力中的Q来自解码器
K和V则来自编码器

其他称呼

"编码器-解码器注意力"和"交叉注意力"是同一种注意力机制的不同称呼。其他常见的名称还包括：

Encoder-decoder attention
Inter-attention
Cross attention

热门推荐

广东财经大学专业排名：2024年软科版完整榜单

广东财经大学专业排名：2024年软科版完整榜单

【经济观察】银行周六、周日该不该休息？这届网友吵翻了！

【经济观察】银行周六、周日该不该休息？这届网友吵翻了！

做完斑后要注意什么饮食

做完斑后要注意什么饮食

加快建立城镇燃气安全长效机制

加快建立城镇燃气安全长效机制

保护生态健康，防治地表水污染是全人类要做的头等大事

保护生态健康，防治地表水污染是全人类要做的头等大事

多动症孩子的家庭干预方法

多动症孩子的家庭干预方法

建筑材料的质量如何衡量？这种衡量怎样依据行业标准？

建筑材料的质量如何衡量？这种衡量怎样依据行业标准？

早餐中不能缺乏蛋白质和膳食纤维？营养均衡又护心！

早餐中不能缺乏蛋白质和膳食纤维？营养均衡又护心！

中国道士画家：道韵丹青，艺境天成

中国道士画家：道韵丹青，艺境天成

优化套期保值决策的实用策略与技巧

优化套期保值决策的实用策略与技巧

移动友好的网页设计

移动友好的网页设计

手机版网页如何查看源码

手机版网页如何查看源码

氮及其化合物性质知识点总结

氮及其化合物性质知识点总结

2025年教师评估与反馈研修体会

2025年教师评估与反馈研修体会

唐朝繁星般闪耀的诗人群体——探究唐代诗人的卓越成就

唐朝繁星般闪耀的诗人群体——探究唐代诗人的卓越成就

李商隐最著名的诗十首，终于集齐了，你会背几首呢？

李商隐最著名的诗十首，终于集齐了，你会背几首呢？

实战与理论并重，揭秘低空无人机产教融合的创新之路

实战与理论并重，揭秘低空无人机产教融合的创新之路

英帝国的殖民扩张

英帝国的殖民扩张

夏季钓鱼技巧之起竿好时机（抓住钓鱼高峰期）

夏季钓鱼技巧之起竿好时机（抓住钓鱼高峰期）

不用带卡！不用手机！医保支付可以刷“脸”卡了

不用带卡！不用手机！医保支付可以刷“脸”卡了

风湿性关节炎主要表现是什么

风湿性关节炎主要表现是什么

12个春天手机摄影技巧，用手机把春天拍美吧

12个春天手机摄影技巧，用手机把春天拍美吧

中国铁道博物馆：百年铁路发展史的生动见证

中国铁道博物馆：百年铁路发展史的生动见证

浙农林大专家多措并举助力竹产业高质量发展

浙农林大专家多措并举助力竹产业高质量发展

广东邮政架起粤澳沟通交流的“绿色桥梁”

广东邮政架起粤澳沟通交流的“绿色桥梁”

2025年还愿的意义与价值：从精神慰藉到社会和谐

2025年还愿的意义与价值：从精神慰藉到社会和谐

一线城市楼市“银十”开门红：新房认购量激增，二手房交易活跃

一线城市楼市“银十”开门红：新房认购量激增，二手房交易活跃

红薯什么时候吃减肥效果最好？专家解读最佳食用时段

红薯什么时候吃减肥效果最好？专家解读最佳食用时段

SEO基础知识：什么是H标签（Header Tags）？如何正确使用

SEO基础知识：什么是H标签（Header Tags）？如何正确使用

18岁青年同居现象解析：普遍性、原因与影响

18岁青年同居现象解析：普遍性、原因与影响

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号