问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Transformers的Feed-Forward Layer技术详解

创作时间:
作者:
@小白创作中心

Transformers的Feed-Forward Layer技术详解

引用
CSDN
1.
https://m.blog.csdn.net/shengyin714959/article/details/140945750

本篇文章将深入探讨Transformer模型中的核心组件之一:前馈层(Feed-Forward Layer)。通过直观的图表和简洁的文字,帮助读者理解这一在深度学习架构中至关重要的元素。

前馈全连接层(feed-forward linear layer)是大多数深度学习架构中的基础元素。在有关深度学习的常见话题交流时,一般都会强调它们在构造 Transformer 架构中的重要作用。


原论文中的图片[1]

前馈全连接层(feed-forward linear layer)基本上就是一堆神经元,每个神经元都与其他神经元相连接。请看下图,其中a、b、c和d是神经元。这些神经元包含了一些 input(即一些我们想要理解的数据(像素值(pixels)、词嵌入(word embeddings)等))。它们与编号为1的神经元相连。每两个神经元之间的连接都有不同的连接权重值(connection strength)。例如,a-1是0.12,b-1是-0.3,等等。实际上,左列中的所有神经元都与右列中的所有神经元相连。但是为了清晰起见,我没有在图像中展示全部的连接,你需要了解这一情况。就像图中有a-1一样,还应该有a-2、b-2、c-2、d-3等。两个神经元之间的每个连接都有不同的“连接权重”。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号