向量的基本运算及其在Attention模型中的应用
创作时间:
作者:
@小白创作中心
向量的基本运算及其在Attention模型中的应用
引用
腾讯
1.
https://m.mbook.qq.com/read/1047793778/10
向量可以看作一个矢量,即既有大小、又有方向的量。例如,
在2维坐标系中,如图1-6所示。
图1-6
向量之间可以进行数学运算,例如对于2维向量
和
,加法运算为
上式的几何意义,如图1-7所示。
图1-7
向量也可以和一个常数相乘,例如
上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。
图1-8
如果一个向量可以由其他向量加权求和表示,如
则称α1可以由α2~αm线性表示。
在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即
只不过权重k是通过模型计算产生的。
当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即
可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。
热门推荐
U盘变本地磁盘?数据急救全攻略
Catia曲面设计大师课:曲率分析在高级建模中的核心作用
什么是活动扳手?活动扳手规格型号尺寸和活动扳手作用
打造高性价比厨房装修的五大关键细节
国产自动化软件生产线设计:八大核心要素详解
揭秘五代十国:铁血明君李嗣源的荣耀与哀愁
全屏激发亮度与局部峰值亮度:选购电子设备前不可忽略的关键参数解析
穿越千年探寻诗歌背后的故事,让历史活起来
西门子S7-1200 PLC脉冲控制实例的完整流程
当我在“好想谈恋爱”和“单身一直爽”之间反复横跳……
简述空气栓塞的预防及处理
藜麦披萨(低热量且不含面粉)
拓宽生命广度,攀登人生高度
机动车6年免检是什么意思
什么是电子授权?从定义到应用的全面解析
全球视野下的“国外公司授权书”:一站式解析与实用指南
2024能源与动力工程专业大学排名
【中医经典读物】第九十四期:《伤寒论》小承气汤证
小承气汤的组成和功效主治
城乡医疗保险的报销比例是多少?
博美犬的水果饮食指南:哪些水果适合狗狗食用?
吃野菜啦!陇川人把春天“端”上餐桌
win11设置上网时间怎么操作?如何限制上网时长?
从大宗商品风险管理到CTRM系统功能需求
祝姓起源与发展:祝姓的历史、人口与地区分布
业内人士:客观看待程序化交易的市场影响
什么是全景天窗?结构、类型、优缺点全解析
劝你多吃桃子的理由,1个就够了
揭秘:同人文究竟是什么?
为什么NAS无法完全替代本地硬盘?