问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深度学习中的正向传播和反向传播、梯度爆炸和梯度消失详解

创作时间:

作者:

@小白创作中心

深度学习中的正向传播和反向传播、梯度爆炸和梯度消失详解

引用

CSDN

1.

https://blog.csdn.net/qq_40306845/article/details/136325966

正向传播和反向传播是深度学习中两个核心概念，它们分别负责神经网络的前向计算和权重更新。然而，在深度神经网络中，梯度爆炸和梯度消失问题常常会影响模型的训练效果。本文将通过一个简单的神经网络示例，详细解释正向传播和反向传播的计算过程，并探讨梯度爆炸和梯度消失产生的原因。

前向传播和反向传播

以一个简单的神经网络为例子，讲解神经网络前向传播和反向传播的计算。

前向传播

前向传播（Forward Propagation，缩写为FP）是按顺序计算和存储神经网络中每层的结果，从而达到神经网络的运行。

$h_1$ 的计算：$h_1=x_1 \cdot w_1+x_2 \cdot w_2$
$h_2$ 的计算：$h_2=x_1 \cdot w_3+x_2 \cdot w_4$
$y'$ 的计算：$y' =h_1 \cdot w_5+h_2 \cdot w_6$

为了方便理解，这里并没有加入激活函数和bias偏置值。

反向传播

反向传播（Back propagation，缩写为BP）是通过链式求导来更新神经网络中的权重，从而达到人工神经网络的训练。简单来说，就是用损失函数对每一网络层的每一个参数求偏导，利用偏导的值来更新权重。

例如更新$W_5$ 的权值：

先用损失函数对$W_5$ 求偏导：
$$
\frac{\partial \delta}{\partial W_5}=\frac{\partial \delta}{\partial y'} \frac{\partial y'}{\partial W_5}
$$

$$
\frac{\partial \delta}{\partial y'}=2\cdot \frac{1}{2}(y-y') \cdot(-1)
$$

$$
\frac{\partial y'}{\partial W_5} =h_1+0
$$

通过带入正向传播计算出来的$y$、$y'$、$h_1$，即可求出偏导数$\frac{\partial \delta}{\partial W_5}$

通过偏导数对$W_5$ 的权值进行更新：
$$
w_5^{(update)}=w_5-\eta \cdot{\frac{\partial \delta}{\partial W_5}}
$$
其中$\eta$为超参数，可以自行设定。

其它权重更新也是差不多的，只不过求导的次数更多，遵守链式求导法则即可求出，例如损失函数对$W_1$ 求偏导：
$$
\frac{\partial \delta}{\partial W_1}=\frac{\partial \delta}{\partial y'} \frac{\partial y'}{\partial h_1} \frac{\partial h_1} {\partial W_1}
$$

梯度爆炸和梯度消失

介绍

梯度是什么？梯度是一个向量，是一个n元函数f关于n个变量的偏导数，梯度会指向各点处的函数值降低的方向。前面反向传播求权重偏导数的过程其实就是一个在求梯度的过程，神经网络通过梯度下降来找到“最优”的网络参数。

梯度爆炸：随着反向传播，并没有梯度下降，反而梯度增加。

梯度消失：随着反向传播，梯度会越来越小，最终没有变化，但并没有收敛到比较优的解。

产生的原因

本质上是反向传播的链式法则导致激活函数导数的连乘，以及权重初始值过大/小。

前面介绍正向传播和反向传播的时候，为了讲解方便所以公式并没有加入激活函数和bias偏置项，但实际上神经网络常常都会加入激活函数和bias。

引入激活函数是为了引入非线性，让神经网络更好应用到非线性模型中。

引入bias是为了具有更复杂的参数结构，更好的拟合。例如$sigmoid(wx)$，不同权重w的$sigmoid(wx)$函数形状会改变，但是位置不会改变，而加入了bias后$sigmoid(wx+b)$函数就可以左右平移。

介绍激活函数和bias的原因，是因为接下来推导需要用到，以及梯度爆炸和梯度消失产生的原因和激活函数有关。

以一个四层神经网络为例子，简单理解一下梯度（偏导数）的推导，从而来理解梯度爆炸和消失产生的原因。

每层神经元的函数为$f_i$，激活函数记为F，递推关系$f_{i+1}=F(f_i×w_{i+1}+b_{i+1})$

既然是为了理解梯度爆炸和消失的原因，那么我们就要找出梯度相关的表达式。

梯度和权重更新的差值有关，也就是权重的偏导数相关$\triangle w=-\eta \cdot\frac{\partial \delta}{\partial W}$

用$\triangle W_3$ 的计算化简作为例子。

$$
\frac{\partial \delta}{\partial W_2}= \frac{\partial \delta}{\partial f_3} \frac{\partial f_3}{\partial f_2} \frac{\partial f_2}{\partial W_2}
$$

$$
\frac{\partial f_2}{\partial W_2}=\frac{\partial F(f_1×w_2+b_2)}{\partial W_2}=F' f_1
$$

$$
\frac{\partial f_{i+1}}{\partial f_i}=\frac{\partial F(f_i×w_{i+1}+b_{i+1})}{\partial f_i}=F' w_i
$$

依次类推，可得
$$
\frac{\partial \delta}{\partial W_2}=\frac{\partial \delta}{\partial f_3}F' w_2 F' f_1
$$

从$\triangle W_3$ 的计算化简可以看到，权重更新的插值是一定会和激活函数的导数$F'$有关，并且随着权重离输出层越远，表达式中的$\frac{\partial f_{i+1}}{\partial f_i}=F' w_i$就会越多，激活函数的导数$F'$连乘就会越多。

当激活函数的导数$F'$>1的时候，随着神经网络层数增加，梯度更新就会以指数形式增长，从而梯度爆炸。

当激活函数的导数$F'$<1的时候，随着神经网络层数减少，梯度更新就会以指数形式减少，从而梯度消失。

总结起来，梯度爆炸和梯度消失的主要原因就是激活函数选择的不合理和过深的网络层数。但其实从推到的公式来看的时候，其实也和初始设置权重的值有关，初始化太大会导致梯度爆炸，初始化太小会导致梯度消失。

本文参考：

5分钟-通俗易懂 - 神经网络反向传播算法（手算）
欠拟合、过拟合、梯度消失与梯度爆炸

热门推荐

从AlphaGo到游戏NPC：深度学习如何重塑游戏角色行为

从AlphaGo到游戏NPC：深度学习如何重塑游戏角色行为

深度学习助力《星际争霸II》和《DOTA 2》AI再升级

深度学习助力《星际争霸II》和《DOTA 2》AI再升级

深度强化学习教你打造无敌游戏AI

深度强化学习教你打造无敌游戏AI

三年级怎么辅导孩子？智慧家长这么做，你知道吗？

三年级怎么辅导孩子？智慧家长这么做，你知道吗？

2024春运行李托运指南：流程、价格与省钱技巧

2024春运行李托运指南：流程、价格与省钱技巧

一文读懂汽车托运：从费用到政策的全方位指南

一文读懂汽车托运：从费用到政策的全方位指南

德国小蠊：城市环保的隐形威胁

德国小蠊：城市环保的隐形威胁

7款单机战争策略游戏推荐：从古罗马到三国，尽享策略对决

7款单机战争策略游戏推荐：从古罗马到三国，尽享策略对决

Steam平台塔防游戏精选：从现代战争到迷宫策略，10款佳作等你挑战

Steam平台塔防游戏精选：从现代战争到迷宫策略，10款佳作等你挑战

心理学视角下的赌博成瘾与彩票购买

心理学视角下的赌博成瘾与彩票购买

华南师大揭秘蟑螂药用新突破：从害虫到良药的惊人转变

华南师大揭秘蟑螂药用新突破：从害虫到良药的惊人转变

从害虫到良药：蟑螂的医学价值新突破

从害虫到良药：蟑螂的医学价值新突破

解密尿频尿急：焦虑紧张等心理因素不可忽视

解密尿频尿急：焦虑紧张等心理因素不可忽视

厦门公交移动支付，告别零钱烦恼

厦门公交移动支付，告别零钱烦恼

血液制品“丙球”新冠后再遇院内缺货潮

血液制品“丙球”新冠后再遇院内缺货潮

人血白蛋白怎样做成的

人血白蛋白怎样做成的

我国人血清白蛋白行业分析：多因素致供需缺口大 2025年市场规模将超400亿

我国人血清白蛋白行业分析：多因素致供需缺口大 2025年市场规模将超400亿

一锅煮千年：中国火锅的历史变迁

一锅煮千年：中国火锅的历史变迁

房屋养老金如何推行，谁来出钱，如何使用？试点城市这么做

房屋养老金如何推行，谁来出钱，如何使用？试点城市这么做

桂花树病虫害防治技术与方法措施（打造健康的桂花树园林环境）

桂花树病虫害防治技术与方法措施（打造健康的桂花树园林环境）

浇硫酸亚铁的植物？——揭秘桂花的神奇能力（桂花对硫酸亚铁的吸收能力及作用）

浇硫酸亚铁的植物？——揭秘桂花的神奇能力（桂花对硫酸亚铁的吸收能力及作用）

天水麻辣烫走红，中医提醒：这样吃才健康

天水麻辣烫走红，中医提醒：这样吃才健康

20种香料炖出专业味，麻辣烫汤底制作完全指南

20种香料炖出专业味，麻辣烫汤底制作完全指南

用户体验优化：高效反馈机制的设计与实现

用户体验优化：高效反馈机制的设计与实现

孩子备考压力大如何应对？如何缓解考前紧张？

孩子备考压力大如何应对？如何缓解考前紧张？

马寒医生教你科学护头皮

马寒医生教你科学护头皮

智能机器人助力养老领域，为老年人提供全方位服务

智能机器人助力养老领域，为老年人提供全方位服务

日本护理人员不足，智慧养老与护理机器人应对？

日本护理人员不足，智慧养老与护理机器人应对？

机器人养老！最新进展！

机器人养老！最新进展！

遗产小道·历史文化名城丨何以济宁

遗产小道·历史文化名城丨何以济宁

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号