问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

向量的基本运算及其在Attention模型中的应用

创作时间:
作者:
@小白创作中心

向量的基本运算及其在Attention模型中的应用

引用
腾讯
1.
https://m.mbook.qq.com/read/1047793778/10

向量可以看作一个矢量,即既有大小、又有方向的量。例如,

在2维坐标系中,如图1-6所示。


图1-6

向量之间可以进行数学运算,例如对于2维向量

,加法运算为

上式的几何意义,如图1-7所示。


图1-7

向量也可以和一个常数相乘,例如

上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。


图1-8

如果一个向量可以由其他向量加权求和表示,如

则称α1可以由α2~αm线性表示。

在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即

只不过权重k是通过模型计算产生的。

当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即

可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号