Transformer模型中的矩阵乘法与点积:详解Attention计算
创作时间:
作者:
@小白创作中心
Transformer模型中的矩阵乘法与点积:详解Attention计算
引用
CSDN
1.
https://blog.csdn.net/ank1983/article/details/137090019
在Transformer模型中,矩阵乘法和点积是计算attention的关键操作。本文将通过简单的语言和比喻,帮助读者理解这两个概念及其在attention计算中的应用。
矩阵乘法MatMul(Matrix multiply)
- 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。可以这样理解:一个人是站着的,另一个人是躺着的,站着的高度必须等于躺着的长度。
- 在计算attention时,因为Q(Query)和K(Key)是相同的矩阵,所以必须将K转置(躺下),才能与Q相乘。
- 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
- 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。换句话说,C里面每个值都是乘积之和(点积)。
矩阵乘法与点积dot product的关系
点积是两个向量之间的运算。设有两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn],它们的点积定义为:
a·b=a1b1+a2b2+……+anbn。
通过对比可以发现:
- 矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。
- 如果矩阵A只有一行,而B只有一列,那么矩阵乘法就等同于向量点积。
- 如果矩阵A不止一行,而B也不止一行,那么矩阵乘法就等同于多个向量点积。
因此,标题中的"dot-product attention"实际上就是通过矩阵乘法来实现的。
点积的作用
点积可以计算两个向量的相似值或距离。在Transformer模型中,attention机制就利用这一点来计算query和key之间的相似度,从而确定应该关注哪些信息。
热门推荐
2型糖尿病可以吃豆干吗
女生读师范选什么专业好?附各专业最好的大学分数线
三亚户口有什么好处
小学英语课堂如何使用游戏教学
眼睛一边红怎么回事
亲子关系发展的关键步骤:从新生儿到幼儿期的情感纽带建立
《三角洲行动》上手体验:短板越来越少的 FPS 新势力
卫生间可以铺设PVC塑胶地板吗?
瓷砖上贴瓷砖(地砖用久了怎么翻新)
棉花期货的价格波动受哪些因素影响?这些因素如何进行分析?
线性代数基础概念:向量空间
喀什市十大特产
赵公明与古代民间信仰的寓意
2025上海浦东初中梯队排名
中二少年常用的英语口头禅
青城山清明节免费开放:详解优惠政策与游览指南
股票相对强弱指数(RSI):超买和超卖状态
电脑清洁工具及步骤详解:让您的设备焕然一新
如何选择性能良好的台球桌?这类台球桌有哪些特点?
丙火女 丙火命是什么意思
专家推荐:5种山药养胃食谱,温和滋养胃部健康
考研必备:如何高效准备管理类综合能力考试(管综)
中医如何治疗湿疹?
天秤座孩子怎么教育好
仅剩32人
鱼腥草是什么
斯太尔AUG突击步枪:开启步枪“无托”时代
海南旅游如何规划行程以减少步行:揭秘省时省力的旅游攻略
台风的形成原理及其影响 为什么会形成台风
最全的婚姻八字配对表生肖篇