问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

为什么 Batch Normalization 那么有用？

创作时间:

作者:

@小白创作中心

为什么 Batch Normalization 那么有用？

引用

1

来源

1.

https://cloud.tencent.com/developer/article/2451764

本文是一篇关于Batch Normalization（批量归一化）作用机理的技术文章。文章通过引用一篇学术论文（How Does Batch Normalization Help Optimization?），详细探讨了BN为什么有效，并通过多个实验和分析来支持其结论。

一、BN和ICS的关系

在文章Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift中，其对与ICS是这样解释的：由于前一层的参数更新，所以这一层的输入（前一层的输出）的分布会发生变化，这种现象被称之为ICS。同样，这篇文章的观点认为BN work的真正原因，在与其将数据的分布都归一化到均值为0，方差为1的分布上去。因此，每一层的输入（上一层输出经过BN后）分布的稳定性都提高了，故而整体减小了网络的ICS。

但是，本文作者就提出了两个疑问：

BN work的原因是否真的与ICS有关？
BN层是否真的能够稳定输入分布？

1.1 BN是否真的与ICS有关？

对比实验：

在训练阶段，使用一下三种训练方法进行训练

No BN
标准的BN
noisy BN （在标准的BN层后，加上均值不为0，方差不为1的noisy，并且在每个训练step都改变noisy的分布，降低了输入分布的稳定性，使得网络的ICS变大）

观察上图左，可以发现加了noisy BN和标准的BN在training accuracy和收敛速度上几乎没有差异，并且都优于不加BN的方法。

结论：

没有证据表明BN的性能是因为提高了输入分布的稳定性。即BN与ICS无关。

1.2 BN是否能够减少ICS

对比实验：（具体参看文章section 2.2）

训练一个（25-layer deep linear network， DLN）,即去除网络中的所有非线性激活层，只保留线性层，这么做的目的是为了在统计ICS时，减少非线性激活层对数据分布的影响。
最后发现，带BN层的DLN不像预想的那样减少了ICS，反而增大了ICS。

结论：

从优化的角度来看，通过使用BN来控制layer的输入分布并不能减少ICS

二、Why does BN work？

Ioffe and Szegedy在文章中说，BN可以防止梯度爆炸或弥散、可以提高训练时模型对于不同超参（学习率、初始化）的鲁棒性、可以让大部分的激活函数能够远离其饱和区域。所有这些BN的性质，都可以帮助我们快速鲁棒的训练网络。但是该怎么解释呢？

2.1 BN的平滑影响

作者认为，BN能够work的真正原因在于BN重新改变了优化问题，使得优化空间变得非常平滑。

对于没有BN的神经网络，其loss函数是不仅非凸，并且还有很多flat regions、sharp minimal。这就使得那些基于梯度的优化方法变得不稳定，因为很容易出现过大或者过小的梯度值。

观察上图，可以发现，在使用了BN后，loss的变化变得更加稳定，不会出现过大的跳动；同样，梯度也变得更加平滑。

2.2 是否BN是最好或者唯一的方法来对优化空间进行平滑

对比实验：

不使用BN
使用标准BN
使用L1 归一化方法
使用L2归一化方法
使用L
归一化方法

结论：

很多normalization的方法都可以达到BN的效果，甚至更好。

2.3 理论分析

文章理论分析部分做了很多定理和推论，这里就不做具体分析啦。

本文参与腾讯云开发者社区内容共建，欢迎正在阅读的你也加入 - https://cloud.tencent.com/developer/cloudblog/introduction，与更多技术开发者交流学习。

热门推荐

怎样查是否结婚或离婚

怎样查是否结婚或离婚

紫微斗数：命理学中的健康预测指南

紫微斗数：命理学中的健康预测指南

多刚体动力学中的能量守恒与耗散深入剖析

多刚体动力学中的能量守恒与耗散深入剖析

6本刚完结凡人流修仙小说，炼蛊后宫、怒海舰队、御兽家族、养生

6本刚完结凡人流修仙小说，炼蛊后宫、怒海舰队、御兽家族、养生

战斗机也分代？看完这篇，你再也不问‘几代之分’了

战斗机也分代？看完这篇，你再也不问‘几代之分’了

小升初数学笔记有哪儿些？最全最新复习资料整理！

小升初数学笔记有哪儿些？最全最新复习资料整理！

【大眼晋带你嗨翻山西春节】年味儿比饺子还香

【大眼晋带你嗨翻山西春节】年味儿比饺子还香

1/3患者“逆转”糖尿病！《柳叶刀》子刊：符合这3个条件，可能性更大！

1/3患者“逆转”糖尿病！《柳叶刀》子刊：符合这3个条件，可能性更大！

婴儿过度喂养的解决方法

婴儿过度喂养的解决方法

新型可吸入性肺癌治疗方法：外泌体递送IL-12 mRNA展现突破性进展

新型可吸入性肺癌治疗方法：外泌体递送IL-12 mRNA展现突破性进展

儿童床垫选购全攻略：安全环保与舒适透气如何兼得？

儿童床垫选购全攻略：安全环保与舒适透气如何兼得？

一年12个月怎么分四季春夏秋冬划分方法

一年12个月怎么分四季春夏秋冬划分方法

《Neuron》：重建新海马印迹用于系统再巩固和远程记忆更新

《Neuron》：重建新海马印迹用于系统再巩固和远程记忆更新

科技赋能推动沉浸式智慧文旅项目不断涌现

科技赋能推动沉浸式智慧文旅项目不断涌现

《塞尔达传说：荒野之息》是如何做开放世界互动的？

《塞尔达传说：荒野之息》是如何做开放世界互动的？

狐狸饰品的深层含义与象征解析狐狸饰品为什么受欢迎的原因是什么

狐狸饰品的深层含义与象征解析狐狸饰品为什么受欢迎的原因是什么

平行时空斗罗大陆之神二代

平行时空斗罗大陆之神二代

苹果四大代工厂商布局有新动向，值得关注！

苹果四大代工厂商布局有新动向，值得关注！

揭秘钢琴等级划分：从入门到精通，你该选择哪个级别？

揭秘钢琴等级划分：从入门到精通，你该选择哪个级别？

想长寿？不妨试试这种简单高效的小运动，深呼吸都有什么好处？

想长寿？不妨试试这种简单高效的小运动，深呼吸都有什么好处？

老年患者平均每天服8.6种药，药师为你“做减法”

老年患者平均每天服8.6种药，药师为你“做减法”

被誉为“中国哏都”，为何天津城那么有“幽默气质”？

被誉为“中国哏都”，为何天津城那么有“幽默气质”？

被明宪宗朱见深专宠的万贵妃，到底有没有谋害皇嗣？看完就知道了

被明宪宗朱见深专宠的万贵妃，到底有没有谋害皇嗣？看完就知道了

央视综艺主持风波：新旧交替下的新挑战。

央视综艺主持风波：新旧交替下的新挑战。

《凡人修仙传人界篇》手游魔修技能介绍

《凡人修仙传人界篇》手游魔修技能介绍

探秘故宫乾清宫正大光明匾的由来与故事

探秘故宫乾清宫正大光明匾的由来与故事

前驱车和后驱车在日常驾驶中的差异：老司机们这样说

前驱车和后驱车在日常驾驶中的差异：老司机们这样说

学命理学，不可不读《滴天髓》，它的源流体系，让命学可成大道

学命理学，不可不读《滴天髓》，它的源流体系，让命学可成大道

Word文档页码管理：快速插入与格式化技巧

Word文档页码管理：快速插入与格式化技巧

农村电商：构建乡村振兴新路径，农产品直播成为主流

农村电商：构建乡村振兴新路径，农产品直播成为主流

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号