Transformer模型中的矩阵乘法与点积:详解Attention计算
创作时间:
作者:
@小白创作中心
Transformer模型中的矩阵乘法与点积:详解Attention计算
引用
CSDN
1.
https://blog.csdn.net/ank1983/article/details/137090019
在Transformer模型中,矩阵乘法和点积是计算attention的关键操作。本文将通过简单的语言和比喻,帮助读者理解这两个概念及其在attention计算中的应用。
矩阵乘法MatMul(Matrix multiply)
- 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。可以这样理解:一个人是站着的,另一个人是躺着的,站着的高度必须等于躺着的长度。
- 在计算attention时,因为Q(Query)和K(Key)是相同的矩阵,所以必须将K转置(躺下),才能与Q相乘。
- 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
- 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。换句话说,C里面每个值都是乘积之和(点积)。
矩阵乘法与点积dot product的关系
点积是两个向量之间的运算。设有两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn],它们的点积定义为:
a·b=a1b1+a2b2+……+anbn。
通过对比可以发现:
- 矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。
- 如果矩阵A只有一行,而B只有一列,那么矩阵乘法就等同于向量点积。
- 如果矩阵A不止一行,而B也不止一行,那么矩阵乘法就等同于多个向量点积。
因此,标题中的"dot-product attention"实际上就是通过矩阵乘法来实现的。
点积的作用
点积可以计算两个向量的相似值或距离。在Transformer模型中,attention机制就利用这一点来计算query和key之间的相似度,从而确定应该关注哪些信息。
热门推荐
亲子互动,打造孩子健康心智
亲子活动爆红朋友圈,你家宝宝也想参加?
AI+传统:让亲子互动更有新意
2025年信息通信业:5G-A引领高质量发展新阶段
山药薏米发糕的制作方法(家庭健康美食)
宠物的心理健康(减少焦虑和压力的策略)
如何消除家里有宠物的异味(从清洁到调理)
在家吃完火锅点蜡烛除味道 这个“妙招”有点不妙
低密度脂蛋白胆固醇偏低怎么回事
2025年最火歌曲盘点:Taylor Swift新专辑领衔,国际国内佳作频出
为什么要区分城市兵与农村兵?
冬季护娃秘籍:公共场所防咳嗽
夏子雯教你营养调理改善咳嗽
上气道咳嗽综合征:儿童慢性咳嗽的“隐形杀手”
冬季宝宝咳嗽,川贝枇杷膏来帮忙!
橙子真的能治咳嗽吗?
雪梨枇杷白萝卜:止咳三剑客的科学搭配
慢性咳嗽背后的"罪魁祸首"
拥有7000多年历史的江南水乡古镇——乌镇
面包保鲜的最佳储存方法揭秘
多吃这两类食物,血压和肾脏都更好!很多人一直没吃对
【滋味】找回童年的味道!海绵蛋糕,你会做吗?
吃葡萄对血管有没有好处
春运高铁出行必看:电动平衡车和自制熟食能带吗?
深中通道通车,中山迎来深圳产业外溢红利
中山“工改”:一场释放发展新动能的攻坚战
深中通道通车倒计时,中山如何把握发展新机遇?
中山市GDP赶超江门,科技创新驱动高质量发展
延迟退休来了,你的养老金账户将发生这些变化
发黑的银首饰应该如何清洗?