问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深入剖析 Adam 优化器:原理、优势与应用

创作时间:
作者:
@小白创作中心

深入剖析 Adam 优化器:原理、优势与应用

引用
CSDN
1.
https://blog.csdn.net/weixin_55939638/article/details/145369102

在深度学习领域,优化器的选择对模型的训练效率和性能起着决定性作用。Adam优化器作为一种自适应优化算法,凭借其根据历史梯度信息动态调整学习率的特性,备受研究者和工程师的青睐。它巧妙融合了RMSProp和Momentum两种优化算法的理念,并对参数更新进行归一化处理,确保每个参数更新的量级相近,有效提升了训练效果。在众多实际问题中,尤其是大规模数据集上深度神经网络的训练,Adam优化器都展现出卓越的性能。

前置知识:RMSProp和Momentum

在深入探究Adam优化器之前,先来了解一下RMSProp和Momentum这两种优化算法。

RMSProp优化算法

RMSprop(Root Mean Square Propagation)是一种用于处理深度学习中稀疏梯度问题的自适应学习率优化算法。它通过对梯度的平方(二阶矩)进行加权平均,来动态调整每个参数的学习率。具体来说,较大梯度的参数步长会更小,较小梯度的参数步长则会较大,以此避免训练过程中的震荡现象。

  • 梯度平方的指数加权平均
    $$v_t = \beta v_{t-1} + (1 - \beta) g_t^2$$
    其中,$v_t$ 表示时间步$t$时的梯度平方的加权平均(二阶矩),$g_t$ 是当前时间步$t$的梯度,$\beta$是衰减系数,用于控制梯度平方的历史信息占比,通常取值为0.9。

  • 参数更新
    $$\theta_t = \theta_{t-1} - \frac{\alpha}{\sqrt{v_t + \epsilon}} g_t$$
    其中,$\theta_t$ 是时间步$t$时的模型参数,$\alpha$是学习率,$\epsilon$是一个极小的常数,常取值为$1 \times 10^{-8}$,用于防止分母为零。

  • 公式解析
    RMSprop通过对梯度平方进行指数加权平均,计算每个参数的更新步长,使其能记住过去梯度的变化,并在未来更新中予以考虑。在更新参数时,依据每个参数的梯度平方加权平均值$v_t$调整学习率,梯度大的参数通过对$v_t$平方根的缩放避免步伐过大,梯度小的参数则进行较大更新。同时,添加小常数$\epsilon$可防止除零错误,保障计算的稳定性。

Momentum优化算法

Momentum(动量)优化器是一种加速梯度下降的方法,它引入“动量”概念,对梯度的历史值进行累积,使参数更新不仅依赖当前梯度,还参考过去的梯度信息。这有助于减少优化过程中的振荡,加快收敛速度。

  • 动量更新
    $$m_t = \beta m_{t-1} + (1 - \beta) g_t$$
    其中,$m_t$(动量)是时间步$t$的梯度加权平均(一阶矩),$g_t$ 是当前时间步$t$的梯度,$\beta$是动量的衰减系数,通常取值在$0 \leq \beta < 1$之间,常见取值为0.9。

  • 参数更新
    $$\theta_t = \theta_{t-1} - \alpha m_t$$
    其中,$\theta_t$ 是时间步$t$的模型参数,$\alpha$是学习率,用于控制更新步长。

  • 公式解析
    $m_t$ 会结合当前梯度$g_t$和之前的动量$m_{t-1}$形成加权平均,避免梯度震荡,在优化时逐渐加速收敛,特别是在平坦区域或局部最小值附近,动量能帮助跳出不良优化路径。最终的参数更新依赖于加权后的动量$m_t$,而非单纯依赖当前梯度,动量值越大,当前梯度影响越小,历史梯度贡献越大。

Adam优化器的原理

Adam优化器巧妙地融合了RMSProp和Momentum的优势,通过对梯度的一阶矩估计(均值)和二阶矩估计(未中心化的方差)进行综合运用,实现自适应学习率调整。

算法所需参数

  • $\alpha$(Stepsize):步长,即学习率,用于控制每次参数更新的幅度。
  • $\beta_1, \beta_2 \in [0, 1)$:分别是一阶矩估计和二阶矩估计的指数衰减率。$\beta_1$ 通常取值接近1,如0.9,它决定了对历史梯度信息的重视程度;$\beta_2$ 通常取值也接近1 。
  • $f(\theta)$:带有参数$\theta$的随机目标函数,是模型训练中需要最小化(或最大化)的函数。
  • $\theta_0$:初始参数向量,模型参数的初始值。

算法步骤

  1. 初始化
  • $m_0 \leftarrow 0$:初始化一阶矩向量为0。
  • $v_0 \leftarrow 0$:初始化二阶矩向量为0。
  • $t \leftarrow 0$:初始化时间步为0。
  1. 迭代过程
  • 当参数$\theta_t$未收敛时,进行以下操作:
  • $t \leftarrow t + 1$:时间步加1。
  • $g_t \leftarrow \nabla_{\theta}f_t(\theta_{t - 1})$:计算在时间步$t$时,随机目标函数关于参数$\theta$的梯度。
  • $m_t \leftarrow \beta_1 \cdot m_{t - 1} + (1 - \beta_1) \cdot g_t$:更新梯度加权平均值(一阶矩估计),结合了历史梯度信息和当前梯度。
  • $v_t \leftarrow \beta_2 \cdot v_{t - 1} + (1 - \beta_2) \cdot g_t^2$:更新梯度平方的加权平均值(二阶矩估计),反映了梯度的平方的累积情况。
  • $\hat{m}_t \leftarrow m_t / (1 - \beta_1^t)$:修正$m_t$,随着$t$的增加,$(1 - \beta_1^t)$越来越大,$m_t / (1 - \beta_1^t)$越来越小。
  • $\hat{v}_t \leftarrow v_t / (1 - \beta_2^t)$:修正$v_t$。
  • $\theta_t \leftarrow \theta_{t - 1} - \alpha \cdot \hat{m}_t / (\sqrt{\hat{v}_t} + \epsilon)$:更新参数,结合了学习率、修正后的$m_t$和$v_t$来调整参数值。
  1. 结束:当参数收敛后,返回最终的参数$\theta$。

从数学角度分析Adam优化器的性质

自适应学习率
Adam优化器能根据梯度变化自主调节学习率。从更新公式可知,当梯度较大时,分母 $ (\sqrt{\hat{v}_t} + \epsilon)$ 相应增大,学习率变小,防止一步走得太大;当梯度较小时,分母变小,学习率增大,加快收敛速度。这种自适应策略使Adam优化器在不同训练阶段都能保持良好性能。

先快后慢的收敛特性
训练初期,梯度较大,Adam优化器采用较大学习率,快速向最优解方向前进;随着训练推进,梯度逐渐变小,学习率也逐渐减小,使模型能更精细地调整参数,最终收敛到最优解附近。这种特性保证了收敛速度和精度。

对梯度绝对值的控制
Adam优化器通过除以梯度的二阶矩估计的平方根(即$\sqrt{\hat{v}_t} + \epsilon$)来控制每一步更新的步子大小,有效避免了梯度爆炸或梯度消失问题,使模型训练更稳定。

Adam优化器的优势

高效性
Adam优化器收敛速度快,能显著减少训练时间,并且没有复杂运算,尤其适用于大规模数据集和复杂模型的训练。

鲁棒性
它对不同类型的问题,无论是凸优化问题还是非凸优化问题,都有良好的适应性,能取得不错的效果。

易于调参
Adam优化器仅有几个超参数(如$\alpha$、$\beta_1$、$\beta_2$和$\epsilon$),且在大多数情况下,这些超参数都有较为合理的默认值,无需过多调参工作。

Adam优化器凭借其独特的设计和出色的性能,已成为深度学习领域不可或缺的工具。深入理解其原理和性质,能帮助我们更好地运用它提升模型训练效果,推动深度学习技术不断发展。在未来的研究和应用中,相信Adam优化器还会持续改进和完善,为更多领域带来创新与突破。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号