问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Transformer为什么使用多头注意力机制？

创作时间:

作者:

@小白创作中心

Transformer为什么使用多头注意力机制？

引用

CSDN

1.

https://m.blog.csdn.net/2401_85327249/article/details/146071779

Transformer中的多头注意力机制是其核心组成部分之一，它通过多个并行的注意力机制来捕捉输入序列中不同维度的语义关系。本文将通过多个生动的比喻，深入浅出地解释多头注意力机制的工作原理及其在自然语言处理中的应用。

1. Q、K、V三者之间的运算关系

让我们先用一个简单的比喻来理解Q、K、V的关系。想象你在YouTube上搜索视频，当你输入查询内容Q（Query）时，系统会将其映射到数据库中与候选视频相关的一组关键字K（Keys），并计算它们之间的相似度。最后，系统会返回最匹配的K所对应的视频链接V（Values）。

在自然语言处理领域，输入的文本会被转化为一系列的token（最小语义单位），每个token都有一个对应的Embedding向量。Attention机制的作用就是对这些Embedding向量进行搜索和匹配，找出它们之间的语义关联度。

2. Q、K、V是如何产生的？

在Attention机制中，每个输入序列中的token都会被转化为一个Embedding向量。为了获得针对每个Embedding向量的Q、K、V三者之间的搜索逻辑，系统会将每个token的Embedding向量分别进行三次线性变换，从而得到Q、K、V三个矩阵。

在实际运算过程中，为了提高效率，系统会将整个序列中所有token的Embedding向量组成一个矩阵同时进行运算。这个矩阵的维度由输入序列的token数n和Embedding的维度（通常为512）决定，因此矩阵的形状为n×512。

3. 多头注意力机制的引入

多头注意力机制可以类比为西方的多头龙，每个头喷出的攻击元素不同，有的是冰冻、有的是火焰、有的是电击、有的是毒素、有的是眩晕。这头龙从原来一个头演化出了8个头，每个头各自做各自的Attention机制。虽然火力分散了，但效率没有降低反而攻击质量还提升了很多。

在Transformer中，多头注意力机制通过将Embedding向量线性变换为8个1/8的向量，分别进行Attention机制运算。这其实是在本质上并不会耽误每个token的语义表达，而只是细分出了不同的语义子空间，即不同类型的细分语义逻辑，使得Attention机制运算起来更细腻精准、更有针对性。

4. 多头注意力机制的运算方式

单头的“Attention 注意力机制”的运算方式

针对每一个token，单头的Attention机制运算如下：

例如，对于句子“He booked a room at a hotel.”中的“booked”这个单词，Attention机制会将其与其他所有token（包括“booked”自己）进行点乘运算，然后通过Softmax计算权重。最后，将这些权重与V向量相乘，得到加权后的变换结果。

“Multi-Head Attention 多头注意力机制”的运算方式

多头注意力机制实际上是将上述的Attention机制分配到了8个头head之中去分别运行。每个头在各自运行之后，再通过Concat把得到的结果链接起来，然后再做一次线性变换，变回初始的形状。

5. 多头注意力机制通俗解释

让我们用一个公司中新进员工的例子来比喻“Self-Attention 自注意力机制”。这个新员工需要迅速地在全部成员之间做一遍工作岗位关联重要度的“Attention 注意力机制”审查，以便自己能快速定位出自己在团队中的位置。

如果在职位的权重、性格匹配度、男女比例关系、前辈与新兵、人际关系等不同维度领域，都来一套“Attention 注意力机制”，这就叫“Multi-head Attention 多头注意力机制”。

这好比一个代驾司机，驾驶汽车的刹车油门方向盘的配合，以及交通法规的遵守，那只是作为一个好司机必须的基础，是业务的最底层。但是，服务好客户不能仅靠这些，更需要靠热情的服务态度、整洁的车内外卫生环境、贴心的便利化设施等等周到考量，这便是“Multi-head”的作用和意义！

总结

多头注意力机制是Transformer模型的核心组成部分，通过多个并行的注意力机制来捕捉输入序列中不同维度的语义关系。这种机制不仅提高了模型的运算效率，还增强了其对复杂语义关系的捕捉能力，是自然语言处理领域的重要突破之一。

热门推荐

明朝内阁制度：中央政治的稳定器与权力中枢

明朝内阁制度：中央政治的稳定器与权力中枢

明朝内阁制度：中央政治的稳定器与权力中枢

明朝内阁制度：中央政治的稳定器与权力中枢

考研补录被录取的机会大吗?考研补录详细介绍

考研补录被录取的机会大吗?考研补录详细介绍

高考选科重回“大文大理”：省重点老师详解热门选科组合

高考选科重回“大文大理”：省重点老师详解热门选科组合

山药是易过敏食物吗？煮熟了能不能吃？

山药是易过敏食物吗？煮熟了能不能吃？

什么是C9中外合作办学？申请流程全解析

什么是C9中外合作办学？申请流程全解析

45岁男性左手小拇指麻木的可能原因是什么

45岁男性左手小拇指麻木的可能原因是什么

专升本高效学习方法攻略：打造高效复习计划，助力实现学业梦想（2024版）

专升本高效学习方法攻略：打造高效复习计划，助力实现学业梦想（2024版）

PCB设计中的3W、20H和3H原则详解

PCB设计中的3W、20H和3H原则详解

吉日对应属相怎么看、吉日属相巧搭配：揭秘最佳良辰吉日选择秘诀

吉日对应属相怎么看、吉日属相巧搭配：揭秘最佳良辰吉日选择秘诀

血糖正常值要控制在多少？不同年齡階段的血糖控制範圍

血糖正常值要控制在多少？不同年齡階段的血糖控制範圍

绝地求生pubg吃鸡运行异常，进不去游戏，安装包异常的应对方法

绝地求生pubg吃鸡运行异常，进不去游戏，安装包异常的应对方法

实习结束后，如何将实习成果转化为求职优势

实习结束后，如何将实习成果转化为求职优势

一触即发，英国资产阶级革命的爆发

一触即发，英国资产阶级革命的爆发

《小王子》：一本关于孤独、纯真与责任的经典童话

《小王子》：一本关于孤独、纯真与责任的经典童话

无度数眼镜能否保护眼睛？专家给出专业解答

无度数眼镜能否保护眼睛？专家给出专业解答

《阿Q正传》深度解析：鲁迅笔下的国民性批判

《阿Q正传》深度解析：鲁迅笔下的国民性批判

培养好奇心的最佳同伴：推荐几本揭秘事物构造的优秀儿童科普书籍

培养好奇心的最佳同伴：推荐几本揭秘事物构造的优秀儿童科普书籍

CSGO新皮肤推荐：截短霰弹枪 | 千纸鹤

CSGO新皮肤推荐：截短霰弹枪 | 千纸鹤

自动挡旁边的加减号有什么作用？老司机现场讲解使用方法和场景

自动挡旁边的加减号有什么作用？老司机现场讲解使用方法和场景

自动挡旁边的加减号有什么作用？老司机现场讲解使用方法和场景

自动挡旁边的加减号有什么作用？老司机现场讲解使用方法和场景

初请数据波澜不惊，黄金跌破2340!深度解析美国经济指标对金价的影响

初请数据波澜不惊，黄金跌破2340!深度解析美国经济指标对金价的影响

6招培养阅读素养，提升孩子的理解与思考能力

6招培养阅读素养，提升孩子的理解与思考能力

2024公租房申请条件有哪些

2024公租房申请条件有哪些

《绣春刀》：一部兼具浪漫与写实的古装动作电影

《绣春刀》：一部兼具浪漫与写实的古装动作电影

今年票房超100亿的10部经典老片，《药神》排第2，第一毫无争议！

今年票房超100亿的10部经典老片，《药神》排第2，第一毫无争议！

探析2024年贵州公务员省考申论之公务员考试申论解读

探析2024年贵州公务员省考申论之公务员考试申论解读

泰坦陨落2最低配置需求分享，了解电脑运行内存纵享丝滑操作

泰坦陨落2最低配置需求分享，了解电脑运行内存纵享丝滑操作

闪击战：德国如何用坦克颠覆了战争的传统法则？

闪击战：德国如何用坦克颠覆了战争的传统法则？

个人签署合同的税率计算方法

个人签署合同的税率计算方法

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号

Transformer为什么使用多头注意力机制？