问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Transformer中的Add & Norm详解：残差连接与层归一化

创作时间:

作者:

@小白创作中心

Transformer中的Add & Norm详解：残差连接与层归一化

引用

CSDN

1.

https://m.blog.csdn.net/weixin_54607024/article/details/144797462

Transformer模型中的Add & Norm层是其核心组成部分之一，它由Add（残差连接）和Norm（Layer Normalization）两部分组成。本文将详细解释这两个概念的核心思想、工作原理和优势。

Add & Norm

Add & Norm 层由 Add 和 Norm 两部分组成，其计算公式如下：

其中 X表示 Multi-Head Attention 或者 Feed Forward 的输入，MultiHeadAttention(X) 和 FeedForward(X) 表示输出 (输出与输入 X 维度是一样的，所以可以相加)。

1. Add

Add指 X+MultiHeadAttention(X)，是一种残差连接，通常用于解决多层网络训练的问题，可以让网络只关注当前差异的部分，在 ResNet 中经常用到：

残差连接的核心思想是在网络的一层或多层之间引入直接连接，使得这些层的输出不仅包括经过非线性变换的特征，还包括未经处理的输入特征。这样做的目的是允许神经网络学习到的是输入和输出之间的残差（即差异），而不是直接学习一个完整的映射。这种方式有助于梯度在训练过程中更有效地回流，减轻深度网络中梯度消失的问题。

2. Norm

Norm指 Layer Normalization，通常用于 RNN 结构，Layer Normalization 会将每一层神经元的输入都转成均值方差都一样的，这样可以加快收敛。

BN是对batch的维度去做归一化，也就是针对不同样本的同一特征做操作。LN是对hidden的维度去做归一化，也就是针对单个样本的不同特征做操作。因此LN可以不受样本数的限制。

具体而言，BN就是在每个维度上统计所有样本的值，计算均值和方差；LN就是在每个样本上统计所有维度的值，计算均值和方差（注意，这里都是指的简单的MLP情况，输入特征是（bsz，hidden_dim））。所以BN在每个维度上分布是稳定的，LN是每个样本的分布是稳定的。

Layer Normalization 的工作原理：

归一化：对于每个输入样本，计算该样本在当前层的所有神经元的均值和方差。然后使用这些统计量对输入进行归一化，使得归一化后的输出具有零均值和单位方差。
缩放和平移：在归一化之后，Layer Normalization 还会引入可学习的参数（缩放因子和偏置），以便模型能够恢复到原始的分布。这意味着归一化后的输出可以通过以下公式表示：

其中，x^是归一化后的输入，γ 和 β是可学习的参数。

适用性：Layer Normalization 特别适合于循环神经网络（RNN）和其他需要处理变长输入的模型，因为它是对每个样本独立进行归一化的，而不是在批次维度上进行。

优势：

加速收敛：通过减少内部协变量偏移（internal covariate shift），Layer Normalization 可以加快模型的收敛速度。
提高稳定性：在训练过程中，模型的表现更加稳定，减少了梯度消失或爆炸的风险。
适应性强：可以在不同的网络架构中使用，尤其是在小批量训练时表现良好。

reference:
https://zhuanlan.zhihu.com/p/492803886
残差连接 residual connection 详解-CSDN博客

热门推荐

库珀·弗拉格：与近年状元秀的比较及其NBA发展潜力

库珀·弗拉格：与近年状元秀的比较及其NBA发展潜力

面对AI挑战，如何彰显人的主体性？

面对AI挑战，如何彰显人的主体性？

开盘之前怎么下单？如何在开盘前进行合理的下单操作？

开盘之前怎么下单？如何在开盘前进行合理的下单操作？

职业病症状及其识别与应对

职业病症状及其识别与应对

股东股权与分红管理制度

股东股权与分红管理制度

让转化率提升10倍的海报技巧，高效打动客户

让转化率提升10倍的海报技巧，高效打动客户

幽门螺旋杆菌怎么治疗？吃幽门杆菌的药不能吃什么？

幽门螺旋杆菌怎么治疗？吃幽门杆菌的药不能吃什么？

【实战场景】@Transactional中使用for update的注意点

【实战场景】@Transactional中使用for update的注意点

如何合理规划房屋布线？这些布线方案有哪些实用技巧？

如何合理规划房屋布线？这些布线方案有哪些实用技巧？

揭秘植物生长的“魔法”：光合作用的奥秘与应用

揭秘植物生长的“魔法”：光合作用的奥秘与应用

安全生产事故怎样界定

安全生产事故怎样界定

长沙长海医院牛洋主任：合理的饮食调整对于改善甲减患者的症状、促进健康恢复至关重要

长沙长海医院牛洋主任：合理的饮食调整对于改善甲减患者的症状、促进健康恢复至关重要

合法的员工辞退通知书范文模板及法律要点解析

合法的员工辞退通知书范文模板及法律要点解析

本溪市中心医院成功开展市首例动静脉内瘘急性血栓闭塞介入治疗

本溪市中心医院成功开展市首例动静脉内瘘急性血栓闭塞介入治疗

求极值问题7种解法及重要不等式之间关系

求极值问题7种解法及重要不等式之间关系

古人秋分习俗：秋后问斩的历史渊源

古人秋分习俗：秋后问斩的历史渊源

古代的死刑犯，为什么非得等到“秋后”才问斩？

古代的死刑犯，为什么非得等到“秋后”才问斩？

护工人力资源代理怎么做

护工人力资源代理怎么做

这几样零食，糖尿病患者可以放心吃

这几样零食，糖尿病患者可以放心吃

麻醉剂管理：采购到使用的关键流程

麻醉剂管理：采购到使用的关键流程

怎样治疗鬼压床

怎样治疗鬼压床

数据驱动的产品战略：从市场调研到执行落地

数据驱动的产品战略：从市场调研到执行落地

美洲咖啡豆特点及风味大汇总

美洲咖啡豆特点及风味大汇总

动态共价键材料：从化学特性到生物医学应用

动态共价键材料：从化学特性到生物医学应用

管制刀具定义标准最新：种类、尺寸与存放规定详解

管制刀具定义标准最新：种类、尺寸与存放规定详解

GB24154是什么标准？解析GB24154标准的详细内容

GB24154是什么标准？解析GB24154标准的详细内容

3 项胆红素指标都升高是怎么回事？如何降？一次性告诉你

3 项胆红素指标都升高是怎么回事？如何降？一次性告诉你

鼻窦炎不用动手术用什么方法治疗

鼻窦炎不用动手术用什么方法治疗

如何寻找合适的投资伙伴并建立良好合作关系？

如何寻找合适的投资伙伴并建立良好合作关系？

CT诊断腹膜炎：影像学征象及临床意义

CT诊断腹膜炎：影像学征象及临床意义

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号