向量的基本运算及其在Attention模型中的应用
创作时间:
作者:
@小白创作中心
向量的基本运算及其在Attention模型中的应用
引用
腾讯
1.
https://m.mbook.qq.com/read/1047793778/10
向量可以看作一个矢量,即既有大小、又有方向的量。例如,
在2维坐标系中,如图1-6所示。
图1-6
向量之间可以进行数学运算,例如对于2维向量
和
,加法运算为
上式的几何意义,如图1-7所示。
图1-7
向量也可以和一个常数相乘,例如
上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。
图1-8
如果一个向量可以由其他向量加权求和表示,如
则称α1可以由α2~αm线性表示。
在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即
只不过权重k是通过模型计算产生的。
当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即
可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。
热门推荐
韩国常用直播平台大盘点:从游戏到娱乐,总有一款适合你
黑色素痣手术切除还是激光去除好?
麦冬需要种植多久?深入解析麦冬的种植、药用与日常应用
杀妻案件远多于杀夫:婚姻暴力背后的法律困境与反思
纯科普:关于口角炎的那些事
春风若解怜花意,能否许我少年时?
特发性震颤:如何应对那些“不自主”的手抖瞬间?
人民币与港币汇率的深度解析,100港币究竟等于多少人民币?
ENTJ性格的主要特征
家庭新风系统怎么选?四大类型解析+避坑指南,手把手教你告别智商税!
中美AI大模型发展现状解析与未来前景展望:比拼技术与应用的时代之选
化工厂含硫废气处理
雅阁混动版的工作原理是什么
澳大利亚独立时,面积815万平方公里,为何现在只有769万?
有机固废处理设备的详细介绍
鲜花购买指南:从选择到配送的全流程解析
动态心电图看哪些指标? 心率、节律和心肌供血状况
如何解读心电图报告单?一文读懂关键指标和注意事项
新iPhone如何快速激活
永州零陵古城:唐风古韵柳子街
如何解決 Valorant 錯誤代碼 VAN -81
癌症科普 | 吸食电子烟可能导致癌症
采埃孚官宣大幅裁员,1.4万人受影响
零部件巨头又裁员!去年刚开掉7000人:又有3000人饭碗不保
如何通过逻辑测试提高你的思维能力?【附详细解析】
老茶头的三种冲泡方法
电机控制系列模块解析(第九篇)—— PWM
耳鸣的原因及预防
对眼矫正手术最佳年龄:儿童、青少年、成人均有适宜时机
草莓果期用什么水溶肥好?肥料使用技巧