问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

自注意力机制的计算过程

创作时间:

作者:

@小白创作中心

自注意力机制的计算过程

引用

CSDN

1.

https://m.blog.csdn.net/weixin_57027133/article/details/142986473

自注意力机制（Self-Attention Mechanism）是Transformer模型的核心组件之一，广泛应用于自然语言处理领域。其计算过程主要包括三个步骤：生成查询（Query）、键（Key）和值（Value）向量，计算注意力得分，以及根据注意力得分生成加权输出。

一、生成查询、键和值向量

假设有一句话，包含n个单词。通过词嵌入技术将每个单词转换为大小为512的向量，形成输入序列 X = [a1, a2, ..., an]，其中 ai 表示序列中的第 i 个元素。

定义三个权重矩阵：Wq（查询矩阵）、Wk（键矩阵）和 Wv（值矩阵）。这些矩阵的维度通常与输入元素的嵌入维度相匹配，并在模型训练过程中学习得到。

对于序列中的每个元素 ai，通过以下公式计算其查询向量 qi、键向量 ki 和值向量 vi：

qi = xi * Wq（查询向量）
ki = xi * Wk（键向量）
vi = xi * Wv（值向量）

二、计算注意力得分

对于序列中的每个元素 ai，计算其与序列中所有元素 aj（包括自身）的查询向量 qi 和键向量 kj 的点积：

score(ai, aj) = qi * kj^T（T 表示转置）

为了防止点积结果过大导致softmax函数梯度消失，通常会引入一个缩放因子（scale），通常为键向量维度的平方根的倒数：

scaled_score(ai, aj) = score(ai, aj) / √dk，其中 dk 是键向量的维度。

接着对缩放后的得分进行softmax归一化，得到注意力权重：

attention_weights(ai, aj) = softmax(scaled_score(ai, aj))

三、生成加权输出

根据注意力权重和值向量，计算每个元素 ai 的加权输出：

output(ai) = Σj(attention_weights(ai, aj) * vj)

最后将序列中所有元素的加权输出汇总，得到最终的输出序列。

注：文中图片截取自李宏毅transformer教学视频。

热门推荐

股市分析：如何利用技术指标预测股价走势

股市分析：如何利用技术指标预测股价走势

Kafka的基本概念

Kafka的基本概念

韩国登腾种植牙质量如何，性价比高吗，是否值得选择？

韩国登腾种植牙质量如何，性价比高吗，是否值得选择？

Fugl-Meyer运动功能评分量表深度解读

Fugl-Meyer运动功能评分量表深度解读

约旦河：一条承载千年文明的神圣之河

约旦河：一条承载千年文明的神圣之河

书法基本理论知识

书法基本理论知识

中医把脉入门教学：28种脉象详解

中医把脉入门教学：28种脉象详解

如何运用复利策略进行汽车投资？

如何运用复利策略进行汽车投资？

通达信强势二板战法：如何在普涨行情下捕捉潜力龙头

通达信强势二板战法：如何在普涨行情下捕捉潜力龙头

基于CANopen协议的同步控制和PDO消息传输

基于CANopen协议的同步控制和PDO消息传输

交通安全小课堂 | 遇交通意外，牢记“车靠边，人撤离，即报警”！

交通安全小课堂 | 遇交通意外，牢记“车靠边，人撤离，即报警”！

处理轻微剐蹭证据的步骤和方法

处理轻微剐蹭证据的步骤和方法

云浮旅游必去十大景点：探寻粤西的宝藏之地

云浮旅游必去十大景点：探寻粤西的宝藏之地

美国留学：校内宿舍 vs 校外租房，哪个更适合你？

美国留学：校内宿舍 vs 校外租房，哪个更适合你？

孔雀翎青龙主人是谁？

孔雀翎青龙主人是谁？

与装修公司有纠纷怎么解决最有效

与装修公司有纠纷怎么解决最有效

装修好的房子怎么验收？这些验房细节搞不懂，小心吃大亏！

装修好的房子怎么验收？这些验房细节搞不懂，小心吃大亏！

锻炼的最佳时间不是“天刚亮”！9个锻炼误区，转给家人

锻炼的最佳时间不是“天刚亮”！9个锻炼误区，转给家人

二元分类：原理、训练与评估

二元分类：原理、训练与评估

叙利亚起义军为何有如此强悍战斗力胜利频传震动战局

叙利亚起义军为何有如此强悍战斗力胜利频传震动战局

手机充电适配器电压解析

手机充电适配器电压解析

银行盈利模式解析

银行盈利模式解析

人运气很差的时候怎么办？这些方法帮你转运

人运气很差的时候怎么办？这些方法帮你转运

木工板厚度标准：从5mm到25mm的使用场景解析

木工板厚度标准：从5mm到25mm的使用场景解析

果葡糖浆生产工艺详解

果葡糖浆生产工艺详解

互联网简史：从阿帕网到全球互联

互联网简史：从阿帕网到全球互联

全球首台国产远控堆高机助力海天码头智能化改造

全球首台国产远控堆高机助力海天码头智能化改造

港口“黑科技”！全球首台远控堆高机，亮相厦门港海天码头

港口“黑科技”！全球首台远控堆高机，亮相厦门港海天码头

车载灭火器在交通法中的规定及法律意义

车载灭火器在交通法中的规定及法律意义

公募基金规模排行的法律透视与合规要点

公募基金规模排行的法律透视与合规要点

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号