Transformer模型中的矩阵乘法与点积:详解Attention计算
创作时间:
作者:
@小白创作中心
Transformer模型中的矩阵乘法与点积:详解Attention计算
引用
CSDN
1.
https://blog.csdn.net/ank1983/article/details/137090019
在Transformer模型中,矩阵乘法和点积是计算attention的关键操作。本文将通过简单的语言和比喻,帮助读者理解这两个概念及其在attention计算中的应用。
矩阵乘法MatMul(Matrix multiply)
- 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。可以这样理解:一个人是站着的,另一个人是躺着的,站着的高度必须等于躺着的长度。
- 在计算attention时,因为Q(Query)和K(Key)是相同的矩阵,所以必须将K转置(躺下),才能与Q相乘。
- 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
- 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。换句话说,C里面每个值都是乘积之和(点积)。
矩阵乘法与点积dot product的关系
点积是两个向量之间的运算。设有两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn],它们的点积定义为:
a·b=a1b1+a2b2+……+anbn。
通过对比可以发现:
- 矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。
- 如果矩阵A只有一行,而B只有一列,那么矩阵乘法就等同于向量点积。
- 如果矩阵A不止一行,而B也不止一行,那么矩阵乘法就等同于多个向量点积。
因此,标题中的"dot-product attention"实际上就是通过矩阵乘法来实现的。
点积的作用
点积可以计算两个向量的相似值或距离。在Transformer模型中,attention机制就利用这一点来计算query和key之间的相似度,从而确定应该关注哪些信息。
热门推荐
学习营养素——B族维生素的作用
改善消化系统的方法
世界上最幸福的十个国家 世界最幸福国家排名 幸福指数最高的国家
公积金查询:法律规定与实践操作指南
程序员如何找到接单团队
羊粒状大便怎么治
暗黑2法师职业装备选择指南:提升战斗力的关键
政策不确定性影响美国经济前景
如何计算贷款提前还款的成本并做出合理决策?
电脑在播放声音之前会出现爆音,如何解决
从张天师的“四不食”到道家“处世”养生
莲子芡实茯苓的功效
HTML访问静态资源路径的四种方法
劳动节的意义是什么20字
抑郁、焦虑是一回事吗?
合法暴利小作坊:创业者的十个优质选择
深部红光理疗:美容护肤行业的科学新选择
这些孩子,都差点成为“红光眼底损伤案例”。红光和激光笔损伤的特点浅析
影片持续“上新”类型丰富题材多样 新锐导演作品扎堆暑期档
肝光点密集是什么意思严重吗
区块链项目是如何赚钱的?揭秘五种主要盈利模式
肝区光点密集是怎么回事
学术论文致谢规范指南:你到底该感谢谁?
甲磺酸倍他司汀片的作用有哪些
媒体公关:策略、挑战、机遇与未来展望
项目经理如何定薪资标准
食神大运对女命好吗:命理学中的婚恋影响解析
东汉手工业的发展
垂体瘤的症状及治疗方法全解析
腺样体肥大能用盐水治好吗