向量的基本运算及其在Attention模型中的应用
创作时间:
作者:
@小白创作中心
向量的基本运算及其在Attention模型中的应用
引用
腾讯
1.
https://m.mbook.qq.com/read/1047793778/10
向量可以看作一个矢量,即既有大小、又有方向的量。例如,
在2维坐标系中,如图1-6所示。
图1-6
向量之间可以进行数学运算,例如对于2维向量
和
,加法运算为
上式的几何意义,如图1-7所示。
图1-7
向量也可以和一个常数相乘,例如
上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。
图1-8
如果一个向量可以由其他向量加权求和表示,如
则称α1可以由α2~αm线性表示。
在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即
只不过权重k是通过模型计算产生的。
当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即
可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。
热门推荐
花呗10万还款失败,平台银行限额争议引关注
李小龙故里均安:功夫传奇的传承与创新
咏春拳:以寸劲和近身格斗征服全球60国
无手机号也能登录微信:六种实用解决方案
架起“连心桥” 凝聚向心力——“中国神华能源之旅2024”活动侧记
元旦来玩儿雪 | 北京市公园管理中心第十一届冰雪游园会开幕啦
冰雪游园会开幕啦!在哪里玩?玩什么?戳进来——
冬日北海亚龙湾:探寻暖阳下的秘境旅游景点精选推荐
三亚VS北海:谁才是避寒过冬的最佳旅居地?
流产了,怎么报销生育保险费用?报销政策全面解读
儿童模仿饮酒,当心大脑发育受影响
《战略命令:二战欧洲战场》——策略游戏爱好者必玩
把眼镜放水里泡一泡,效果太棒了,好多人还不知道,快来看看吧!
用酒精棉片擦眼镜,你以为是在清洁,反而是破坏......正确养护方法
眼镜片怎么洗?眼镜清洗有哪些方法?超声波清洗机能洗眼镜吗?
GT610 显卡性能表现、适用场景及与其他显卡对比全面分析
GT610 显卡性能表现、适用场景及与其他显卡对比全面分析
GT610 显卡性能表现、适用场景及与其他显卡对比全面分析
中国退休老人享七大政策福利,涵盖经济到精神关怀
退休后返聘不签劳动合同,改签用工协议
佑生探索与传承:中国传统四大节日的文化意义
高温煎炸选玉米油,低温烹饪用葵花籽油
童瑶未修图引热议:真实姐用演技赢得观众认可
童瑶巴黎街拍穿搭揭秘:黑色皮衣配白裙的时尚密码
童瑶新作《小日子》热播:从争议到实力派的蜕变之路
倪萍:13届春晚主持人,用坚韧精神战胜人生困境
赵忠祥去世:主持春晚17年,5亿遗产托付倪萍
春晚40年:赵忠祥谢幕,刘晓庆坚守,李谷一病体
油电混合动力汽车驾驶技巧大揭秘
油电混动车日常维护全攻略