Transformer模型中的矩阵乘法与点积:详解Attention计算
创作时间:
作者:
@小白创作中心
Transformer模型中的矩阵乘法与点积:详解Attention计算
引用
CSDN
1.
https://blog.csdn.net/ank1983/article/details/137090019
在Transformer模型中,矩阵乘法和点积是计算attention的关键操作。本文将通过简单的语言和比喻,帮助读者理解这两个概念及其在attention计算中的应用。
矩阵乘法MatMul(Matrix multiply)
- 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。可以这样理解:一个人是站着的,另一个人是躺着的,站着的高度必须等于躺着的长度。
- 在计算attention时,因为Q(Query)和K(Key)是相同的矩阵,所以必须将K转置(躺下),才能与Q相乘。
- 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
- 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。换句话说,C里面每个值都是乘积之和(点积)。
矩阵乘法与点积dot product的关系
点积是两个向量之间的运算。设有两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn],它们的点积定义为:
a·b=a1b1+a2b2+……+anbn。
通过对比可以发现:
- 矩阵C的第一个元素,其实就是A的第一行和B的第一列做点积。
- 如果矩阵A只有一行,而B只有一列,那么矩阵乘法就等同于向量点积。
- 如果矩阵A不止一行,而B也不止一行,那么矩阵乘法就等同于多个向量点积。
因此,标题中的"dot-product attention"实际上就是通过矩阵乘法来实现的。
点积的作用
点积可以计算两个向量的相似值或距离。在Transformer模型中,attention机制就利用这一点来计算query和key之间的相似度,从而确定应该关注哪些信息。
热门推荐
蜂蜜柚子茶
【科普】多“泻”之秋,儿童该如何防“泻”
电气工程及其自动化专业求职者怎样写好技能特长
山东:擘画海洋数字经济新蓝图
杭州雷峰塔真的有压了千年的小白
玫瑰香水不含玫瑰(玫瑰香水不含玫瑰精油)
卫生间做干湿分离还不够,现在更流行做三式分离
如何识别和避免使用有安全隐患的破解软件
揭秘华伦夫妇:超自然现象界的传奇调查员
笔记本玩游戏限30帧的解决办法
移动硬盘没有盘符怎么办?从原因分析到解决方案全攻略
猫狗拼的新命题:从下沉市场到下沉需求
面世100年!2025年重温8部文学经典
人脸图像特征提取(ArcFace)
时评:渝厦高铁助推区域经济腾飞发展
存储芯片的分类有哪些 存储芯片和逻辑芯片的区别
摩托车可以走应急车道吗?哪些地方允许?
齐齐哈尔十大春季旅游景点
小米即将上市,十万资金如何参与投资?
腰椎骨折后何时可以下床锻炼?
历史一刻!雷军成中国新首富:个人财富大揭秘
王者荣耀赵云铭文搭配攻略:攻速阈值与技能增益的完美平衡
梦见动漫角色的深层含义
明朝科学家李之藻:中西文化交流的桥梁
佛山旅游攻略:岭南文化与现代生活的完美融合
钙钛矿电池成电池产业新星,车企巨头悄然布局,未来可期?
睡觉导致脸部不对称?这些改善方法请收好
土木工程专业详解:课程设置、就业前景及留学推荐
金融业成AI替代岗位最多行业:54%任务将自动化
警惕!肝结节并非全部良性,这些结节一定要引起重视!