Transformer模型中的矩阵乘法与点积:详解Attention计算
创作时间:
作者:
@小白创作中心
Transformer模型中的矩阵乘法与点积:详解Attention计算
引用
CSDN
1.
https://blog.csdn.net/ank1983/article/details/137090019
在Transformer模型中,矩阵乘法和点积是计算attention的关键操作。本文将通过简单的语言和比喻,帮助读者理解这两个概念及其在attention计算中的应用。
矩阵乘法MatMul(Matrix multiply)
- 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。可以这样理解:一个人是站着的,另一个人是躺着的,站着的高度必须等于躺着的长度。
- 在计算attention时,因为Q(Query)和K(Key)是相同的矩阵,所以必须将K转置(躺下),才能与Q相乘。
- 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
- 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。换句话说,C里面每个值都是乘积之和(点积)。
矩阵乘法与点积dot product的关系
点积是两个向量之间的运算。设有两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn],它们的点积定义为:
a·b=a1b1+a2b2+……+anbn。
通过对比可以发现:
- 矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。
- 如果矩阵A只有一行,而B只有一列,那么矩阵乘法就等同于向量点积。
- 如果矩阵A不止一行,而B也不止一行,那么矩阵乘法就等同于多个向量点积。
因此,标题中的"dot-product attention"实际上就是通过矩阵乘法来实现的。
点积的作用
点积可以计算两个向量的相似值或距离。在Transformer模型中,attention机制就利用这一点来计算query和key之间的相似度,从而确定应该关注哪些信息。
热门推荐
秋冬季节如何通过日常护理缓解坐骨神经痛?
春运新纪录!上海火车站的百年变迁与智慧升级
上海火车站旁的文化宝藏:天目西文化中心
亲临电影美景-挂在瀑布上的千年古镇-芙蓉镇-景点介绍
老年人股骨颈骨折的最佳治疗方法
高效节能,让空调更省电又凉快(科学使用技巧)
玉兰花怎么拍?这 6 个技巧,让你轻松拿捏!
白领必看!如何通过办公环境改善预防坐骨神经痛?
坐骨神经痛患者的营养食谱指南
椎间盘突出:坐骨神经痛的罪魁祸首?
巫山红叶已过季,但三峡风光依旧迷人
跟着导游晶晶玩转重庆特色景区
复方丹参片+卡托普利,这样吃才对!
黄山呈坎景区:探寻徽州美食的千年之旅
哈尼族长街宴:5000米长桌上的千年文化盛宴
银川五个值得一去的旅游景点,喜欢的不要错过了
千年固原,丝路华章,宁夏固原最好玩的10个景点
李白教你如何优雅地说敬酒词
中药怎么煎?煎多久?怎么保存?一次说清“正确打开方式”
深圳公安紧急提醒:立即关闭这个功能!
免密支付漏洞频发,你的钱还安全吗?
四步关闭微信免密支付,守护你的资金安全
免密支付安全大揭秘:你真的了解吗?
游景区、看展览、逛商圈 | 厦门市思明区精心策划超百场文旅商活动
易夫林用药指南:正确服用尼莫地平缓释片
高血压患者需慎用这些中药!
丹参天麻齐上阵,科学控压新趋势
中药降压新突破:最新研究揭示天然成分显著效果
菊花茶降压,你喝对了吗?
个体工商户经营者变更登记政策解读