资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

【机器学习】反向传播与梯度消失/爆炸

创作时间:

作者:

@小白创作中心

【机器学习】反向传播与梯度消失/爆炸

引用

CSDN

https://m.blog.csdn.net/fzy2003/article/details/142126827

在深度学习中，反向传播和梯度下降是优化神经网络的核心算法。然而，在实际应用中，梯度消失和梯度爆炸问题常常影响模型的训练效果。本文将深入探讨反向传播的基本原理，梯度下降的具体实现方法，以及梯度消失和梯度爆炸问题的成因和影响。

1. 反向传播

目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。

这样做是有一定原因的，首先，深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为是一个非线性函数f(x)（非线性来自于非线性激活函数），因此整个深度网络可以视为是一个复合的非线性多元函数：

F(x) = f_n(...f_3(f_2(f_1(x)\theta_1+b)\theta_2+b)*\theta_3+b...)

我们最终的目的是希望这个多元函数可以很好地完成输入到输出之间的映射，假设不同的输入，输出的最优解是g(x)，那么，优化深度网络就是为了寻找到合适的权值，满足Loss = L(g(x), F(x))取得极小值点，比如最简单的损失函数：

Loss = ||g(x) - f(x)||^2_2

我们最优的权值就是为了寻找Loss的最小值点，对于这种数学寻找最小值问题，采用梯度下降的方法再适合不过了。

2. 梯度下降

梯度下降是一种用于优化目标函数的迭代算法，其核心目标是通过不断调整模型参数，找到使目标函数达到最小值的参数配置。它通过计算目标函数相对于参数的梯度（即偏导数），然后沿着梯度的反方向以一定的步长（称为学习率）更新参数，从而逐步接近极小值。梯度下降被广泛用于深度学习和机器学习中，用于最小化损失函数，优化模型的性能。

示例：线性回归中的梯度下降

假设我们正在训练一个简单的线性回归模型，模型的形式是：

y = w \cdot x + b

其中，w和b是模型的参数，x是输入，y是预测值。

为了衡量预测结果和真实结果之间的误差，我们引入一个损失函数，通常使用均方误差（Mean Squared Error, MSE）：

Loss(w, b) = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - (\hat{y_i}) \right)^2 = \frac{1}{n} \sum_{i=1}^{n} \left( y_i - (w \cdot x_i + b) \right)^2

其中，y_i是真实值，\hat{y_i} = w \cdot x_i + b是预测值，n是样本数。

我们的目标是通过梯度下降优化w和b，使损失函数最小化。

梯度计算：求偏导数

为了找到w和b的最优值，我们需要分别对损失函数关于w和b求偏导数，也就是计算损失函数相对于每个参数的梯度。

对w的偏导数是：

\frac{\partial \text{Loss}}{\partial w} = \frac{2}{n} \sum_{i=1}^{n} \left( w \cdot x_i + b - y_i \right) \cdot x_i

对b的偏导数是：

\frac{\partial \text{Loss}}{\partial b} = \frac{2}{n} \sum_{i=1}^{n} \left( w \cdot x_i + b - y_i \right)

这些偏导数告诉我们损失函数关于参数w和b的变化率，它们用于指导参数更新的方向。

参数更新：梯度下降步骤

根据梯度下降的原理，我们使用学习率η来更新参数w和b：

w = w - \eta \cdot \frac{\partial \text{Loss}}{\partial w}

b = b - \eta \cdot \frac{\partial \text{Loss}}{\partial b}

通过不断迭代上述更新步骤，我们可以逐渐找到使损失函数最小的w和b的值。

具体的梯度下降过程

假设我们有以下几个样本：

样本1:x_1 = 1,y_1 = 2
样本2:x_2 = 2,y_2 = 4
样本3:x_3 = 3,y_3 = 6

我们从随机初始化参数w_0 = 0和b_0 = 0开始，并设定学习率η = 0.1。

第一次迭代：

计算损失函数的梯度：

对w的偏导数：

\frac{\partial \text{Loss}}{\partial w} = \frac{2}{3} \left[ (0 \cdot 1 + 0 - 2) \cdot 1 + (0 \cdot 2 + 0 - 4) \cdot 2 + (0 \cdot 3 + 0 - 6) \cdot 3 \right] = -28

对b的偏导数：

\frac{\partial \text{Loss}}{\partial b} = \frac{2}{3} \left[ (0 \cdot 1 + 0 - 2) + (0 \cdot 2 + 0 - 4) + (0 \cdot 3 + 0 - 6) \right] = -12

更新参数：

更新w：

w_1 = 0 - 0.1 \times (-28) = 2.8

更新b：

b_1 = 0 - 0.1 \times (-12) = 1.2

第二次迭代：

计算新的梯度：

使用w_1 = 2.8和b_1 = 1.2，计算新的梯度：

对w的偏导数：

\frac{\partial \text{Loss}}{\partial w} = \frac{2}{3} \left[ (2.8 \cdot 1 + 1.2 - 2) \cdot 1 + (2.8 \cdot 2 + 1.2 - 4) \cdot 2 + (2.8 \cdot 3 + 1.2 - 6) \cdot 3 \right] = 3.6

对b的偏导数：

\frac{\partial \text{Loss}}{\partial b} = \frac{2}{3} \left[ (2.8 \cdot 1 + 1.2 - 2) + (2.8 \cdot 2 + 1.2 - 4) + (2.8 \cdot 3 + 1.2 - 6) \right] = 1.6

更新参数：

更新w：

w_2 = 2.8 - 0.1 \times 3.6 = 2.44

更新b：

b_2 = 1.2 - 0.1 \times 1.6 = 1.04

后续迭代：

通过不断迭代，梯度下降会使w和b逐渐收敛到接近于最优值（w = 2,b = 0），此时损失函数达到最小值。

对于具有复杂网络（多个隐藏层）的梯度下降

从输出层开始，逐层向前计算每一层参数对损失函数的偏导数（即梯度）。通过链式法则，损失对每一层的梯度是通过将后面层的梯度乘以前面层的导数得到的。这就是反向传播的核心。

3. 梯度消失/爆炸

梯度消失（Vanishing Gradient）

梯度消失通常发生在深度神经网络中，尤其是当网络层数较深时，梯度在通过反向传播过程中逐渐变得非常小，最终接近于零。这导致在训练过程中，模型参数的更新速度极慢，甚至根本无法有效更新。

原因

在深度网络中，梯度是通过反向传播算法逐层传递回来的。假设一个网络的每一层都具有一个激活函数（如 sigmoid 或 tanh），这些函数的导数值在某些输入范围内会非常小（例如 sigmoid 的导数最大为 0.25，且在远离 0 的地方导数接近 0）。当我们通过链式法则计算梯度时，每一层的梯度都会乘以这些导数值。

因此，如果网络有很多层，随着反向传播逐层进行，梯度的值可能会逐渐缩小到接近 0，导致早期层的梯度消失，参数更新停滞。