深度学习优化方法：一阶方法与二阶方法的对比

创作时间:

作者:

@小白创作中心

深度学习优化方法：一阶方法与二阶方法的对比

引用

CSDN

https://blog.csdn.net/weixin_50907960/article/details/145484225

在优化问题中，first-order method（一级方法）和second-order method（二级方法）的主要区别在于它们利用的导数信息的阶数：

1. First-Order Method（一级方法）

核心特点：仅使用目标函数的一阶导数（梯度）来指导优化。
代表算法：
梯度下降法（Gradient Descent, GD）：
x_k+1 = x_k - α∇f(x_k)
动量梯度下降（Momentum GD）
自适应方法（如 AdaGrad, RMSProp, Adam）
投影梯度法（Projected Gradient Descent, PGD）
拟牛顿方法（如 L-BFGS，但不是严格的二阶方法）
优点：
计算梯度相对简单，适用于大规模优化问题。
计算成本较低，每次迭代只需要计算梯度并进行更新。
缺点：
收敛速度可能较慢，特别是在高度弯曲的优化问题中（如条件数较大的问题）。
可能会受到梯度震荡的影响，尤其是在狭长谷地或高曲率区域。

2. Second-Order Method（二级方法）

核心特点：不仅利用一阶梯度信息，还使用**二阶导数（Hessian 矩阵，即 Hessian = ∇²f(x)）**来指导优化。
二阶导数提供的信息：
梯度仅反映局部变化的方向和速率，但无法描述曲率信息。而Hessian 矩阵提供了目标函数的曲率信息，即梯度如何变化。
Hessian 矩阵的特征值表示函数的局部曲率方向和幅度：
正定（所有特征值为正）：函数在该区域是严格凸的，Newton 更新方向是下降方向。
负定（所有特征值为负）：函数在该区域是严格凹的，可能需要调整策略避免错误的更新。
不定（既有正特征值又有负特征值）：说明当前位置可能是一个鞍点，需要修改 Hessian 进行正定化（如 Levenberg-Marquardt 方法）。
Newton 法通过 Hessian 的逆矩阵调整步长和方向，在不同的曲率方向上自动缩放更新步长，从而更高效地前进，而不是像梯度下降那样仅沿着梯度方向前进。
代表算法：
牛顿法（Newton’s Method）：
x_k+1 = x_k - (∇²f(x_k))^-1∇f(x_k)
拟牛顿法（Quasi-Newton Methods，如 BFGS, DFP）
信赖域方法（Trust Region Methods）
优点：
能够利用二阶导数的信息，更准确地调整步长和方向，收敛速度通常比一阶方法更快（局部收敛为二次收敛，而梯度下降通常是线性收敛）。
对具有较差条件数的问题（如高曲率问题）更具鲁棒性。
缺点：
计算 Hessian 矩阵或其逆矩阵的成本较高，尤其是在高维优化问题中。
可能需要额外的正定性修正（如在非凸优化问题中）。

3. 对比总结

特性	First-Order Method（一级方法）	Second-Order Method（二级方法）
使用的信息	只用梯度（∇f）	用梯度（∇f）+ Hessian 矩阵（∇²f）
计算开销	计算成本较低	计算成本较高（涉及 Hessian 矩阵的计算和存储）
收敛速度	线性收敛（较慢）	二次收敛（通常更快）
适用场景	适用于大规模优化、神经网络训练等	适用于高精度优化、小规模问题
鲁棒性	对高曲率问题收敛较慢，有时需调参	处理高曲率问题更稳定