深入剖析 Adam 优化器：原理、优势与应用

创作时间:

作者:

@小白创作中心

深入剖析 Adam 优化器：原理、优势与应用

引用

CSDN

https://blog.csdn.net/weixin_55939638/article/details/145369102

在深度学习领域，优化器的选择对模型的训练效率和性能起着决定性作用。Adam优化器作为一种自适应优化算法，凭借其根据历史梯度信息动态调整学习率的特性，备受研究者和工程师的青睐。它巧妙融合了RMSProp和Momentum两种优化算法的理念，并对参数更新进行归一化处理，确保每个参数更新的量级相近，有效提升了训练效果。在众多实际问题中，尤其是大规模数据集上深度神经网络的训练，Adam优化器都展现出卓越的性能。

前置知识：RMSProp和Momentum

在深入探究Adam优化器之前，先来了解一下RMSProp和Momentum这两种优化算法。

RMSProp优化算法

RMSprop（Root Mean Square Propagation）是一种用于处理深度学习中稀疏梯度问题的自适应学习率优化算法。它通过对梯度的平方（二阶矩）进行加权平均，来动态调整每个参数的学习率。具体来说，较大梯度的参数步长会更小，较小梯度的参数步长则会较大，以此避免训练过程中的震荡现象。

梯度平方的指数加权平均：
$$v_t = \beta v_{t-1} + (1 - \beta) g_t^2$$
其中，$v_t$ 表示时间步$t$时的梯度平方的加权平均（二阶矩），$g_t$ 是当前时间步$t$的梯度，$\beta$是衰减系数，用于控制梯度平方的历史信息占比，通常取值为0.9。
参数更新：
$$\theta_t = \theta_{t-1} - \frac{\alpha}{\sqrt{v_t + \epsilon}} g_t$$
其中，$\theta_t$ 是时间步$t$时的模型参数，$\alpha$是学习率，$\epsilon$是一个极小的常数，常取值为$1 \times 10^{-8}$，用于防止分母为零。
公式解析：
RMSprop通过对梯度平方进行指数加权平均，计算每个参数的更新步长，使其能记住过去梯度的变化，并在未来更新中予以考虑。在更新参数时，依据每个参数的梯度平方加权平均值$v_t$调整学习率，梯度大的参数通过对$v_t$平方根的缩放避免步伐过大，梯度小的参数则进行较大更新。同时，添加小常数$\epsilon$可防止除零错误，保障计算的稳定性。

Momentum优化算法

Momentum（动量）优化器是一种加速梯度下降的方法，它引入“动量”概念，对梯度的历史值进行累积，使参数更新不仅依赖当前梯度，还参考过去的梯度信息。这有助于减少优化过程中的振荡，加快收敛速度。

动量更新：
$$m_t = \beta m_{t-1} + (1 - \beta) g_t$$
其中，$m_t$（动量）是时间步$t$的梯度加权平均（一阶矩），$g_t$ 是当前时间步$t$的梯度，$\beta$是动量的衰减系数，通常取值在$0 \leq \beta < 1$之间，常见取值为0.9。
参数更新：
$$\theta_t = \theta_{t-1} - \alpha m_t$$
其中，$\theta_t$ 是时间步$t$的模型参数，$\alpha$是学习率，用于控制更新步长。
公式解析：
$m_t$ 会结合当前梯度$g_t$和之前的动量$m_{t-1}$形成加权平均，避免梯度震荡，在优化时逐渐加速收敛，特别是在平坦区域或局部最小值附近，动量能帮助跳出不良优化路径。最终的参数更新依赖于加权后的动量$m_t$，而非单纯依赖当前梯度，动量值越大，当前梯度影响越小，历史梯度贡献越大。

Adam优化器的原理

Adam优化器巧妙地融合了RMSProp和Momentum的优势，通过对梯度的一阶矩估计（均值）和二阶矩估计（未中心化的方差）进行综合运用，实现自适应学习率调整。

算法所需参数

$\alpha$（Stepsize）：步长，即学习率，用于控制每次参数更新的幅度。
$\beta_1, \beta_2 \in [0, 1)$：分别是一阶矩估计和二阶矩估计的指数衰减率。$\beta_1$ 通常取值接近1，如0.9，它决定了对历史梯度信息的重视程度；$\beta_2$ 通常取值也接近1 。
$f(\theta)$：带有参数$\theta$的随机目标函数，是模型训练中需要最小化（或最大化）的函数。
$\theta_0$：初始参数向量，模型参数的初始值。

算法步骤

初始化：

$m_0 \leftarrow 0$：初始化一阶矩向量为0。
$v_0 \leftarrow 0$：初始化二阶矩向量为0。
$t \leftarrow 0$：初始化时间步为0。

迭代过程：

当参数$\theta_t$未收敛时，进行以下操作：
$t \leftarrow t + 1$：时间步加1。
$g_t \leftarrow \nabla_{\theta}f_t(\theta_{t - 1})$：计算在时间步$t$时，随机目标函数关于参数$\theta$的梯度。
$m_t \leftarrow \beta_1 \cdot m_{t - 1} + (1 - \beta_1) \cdot g_t$：更新梯度加权平均值（一阶矩估计），结合了历史梯度信息和当前梯度。
$v_t \leftarrow \beta_2 \cdot v_{t - 1} + (1 - \beta_2) \cdot g_t^2$：更新梯度平方的加权平均值（二阶矩估计），反映了梯度的平方的累积情况。
$\hat{m}_t \leftarrow m_t / (1 - \beta_1^t)$：修正$m_t$，随着$t$的增加，$(1 - \beta_1^t)$越来越大，$m_t / (1 - \beta_1^t)$越来越小。
$\hat{v}_t \leftarrow v_t / (1 - \beta_2^t)$：修正$v_t$。
$\theta_t \leftarrow \theta_{t - 1} - \alpha \cdot \hat{m}_t / (\sqrt{\hat{v}_t} + \epsilon)$：更新参数，结合了学习率、修正后的$m_t$和$v_t$来调整参数值。

结束：当参数收敛后，返回最终的参数$\theta$。

从数学角度分析Adam优化器的性质

自适应学习率
Adam优化器能根据梯度变化自主调节学习率。从更新公式可知，当梯度较大时，分母 $ (\sqrt{\hat{v}_t} + \epsilon)$ 相应增大，学习率变小，防止一步走得太大；当梯度较小时，分母变小，学习率增大，加快收敛速度。这种自适应策略使Adam优化器在不同训练阶段都能保持良好性能。

先快后慢的收敛特性
训练初期，梯度较大，Adam优化器采用较大学习率，快速向最优解方向前进；随着训练推进，梯度逐渐变小，学习率也逐渐减小，使模型能更精细地调整参数，最终收敛到最优解附近。这种特性保证了收敛速度和精度。

对梯度绝对值的控制
Adam优化器通过除以梯度的二阶矩估计的平方根（即$\sqrt{\hat{v}_t} + \epsilon$）来控制每一步更新的步子大小，有效避免了梯度爆炸或梯度消失问题，使模型训练更稳定。