向量的基本运算及其在Attention模型中的应用
创作时间:
作者:
@小白创作中心
向量的基本运算及其在Attention模型中的应用
引用
腾讯
1.
https://m.mbook.qq.com/read/1047793778/10
向量可以看作一个矢量,即既有大小、又有方向的量。例如,
在2维坐标系中,如图1-6所示。
图1-6
向量之间可以进行数学运算,例如对于2维向量
和
,加法运算为
上式的几何意义,如图1-7所示。
图1-7
向量也可以和一个常数相乘,例如
上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。
图1-8
如果一个向量可以由其他向量加权求和表示,如
则称α1可以由α2~αm线性表示。
在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即
只不过权重k是通过模型计算产生的。
当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即
可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。
热门推荐
如何判断体内尿酸浓度过高
复旦大学研究揭示痤疮发病机制,青春痘治疗迎来新希望
诗词天地会员优秀作品展示【第二十九期】
中国公民赴土耳其旅游免签政策2025年最新确认
溺水怎么办?溺水如何自救?
钢铝关税风暴来袭,特朗普或引爆贸易战,避险黄金再创历史新高
家暴之殇,何以制止?以“令”筑牢人身安全“防护墙”!
鱼露的制作工艺:从传统发酵到现代改良
订好机票后如何选择最合适的座位攻略?
VLAN命令行配置详解
昝涛:中东危机的历史根源
绝区零朱鸢攻略:以太主C的完美输出指南
消化不良吃鸵鸟蛋的好处
中国艺术研究院第三届学术提名发布 涵盖戏曲、音乐、美术和红学
“琼瑶作品大合集”:火花燃烧,爱也依旧
药物非临床依赖性试验的评估及方法要点
明朝朱棣创建的神机营:火器部队的先驱
蚯蚓养殖的生长周期,平均为3个月
范仲淹改革:庆历新政的探索与实践
宋朝时期出现了几次变法?为何总以失败告终?
孩子学习效果不佳?6大方法改善孩子「学习内容过多,短时间难以吸收」的问题
笔记本电脑低蓝光护眼屏:定义、分类、设置方法及蓝光屏幕膜必要性分析
深入解析ASTM D1621:硬质多孔塑料压缩性能的标准化测试指南
"嫣然一笑":一个成语的文化解读
如何有效地使用命名规则来提升你的代码质量?
经期可以喝白茶吗?专家解读其营养价值与饮用注意事项
Excel多种条件预警设置方法详解
一个让你牙齿掉光的坏习惯,还在被低估
中元节烧袱包的格式与写法:传统仪式的文化内涵
银行金融科技应用中的智能投顾投资组合调整