李宏毅《机器学习》：梯度下降算法详解

创作时间:

作者:

@小白创作中心

引用

来源

https://cloud.tencent.com/developer/article/2086947

梯度下降是机器学习中一种常用的优化算法，用于寻找函数的最小值。本文将从误差来源、梯度下降的基本原理、优化方法到特征缩放等多个方面，深入浅出地介绍梯度下降算法的核心概念和实践技巧。

误差（Error）主要有两个来源：偏差（Bias）和方差（Variance）。Error反映的是整个模型的准确度，Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。

偏差 v.s.方差

简单模型（左边）是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型（右边）是方差过大造成的误差，这种情况叫做过拟合。

主要是权衡偏差和方差，使得总误差最小。

交叉验证（Cross Validation）：将训练集再分为两部分，一部分作为训练集，一部分作为验证集。用训练集训练模型，然后在验证集上比较，选择出最好的模型，然后用全部的训练集训练这个最好的模型。
N-折交叉验证（N-fold Cross Validation）：将训练集分成N份，将这N份训练集分别训练，然后求出Average误差，选择Average误差最小的模型，将用全部训练集训练这个平均误差最小的模型。

为什么需要梯度下降法？

小心翼翼地调整学习率

参数是一维或者二维的时候，可以通过可视化来调整学习率，但是高维的情况就很难可视化。解决方法：将参数改变对损失函数的影响进行可视化。

SGD(Stochastic Gradient Descent，随机梯度下降)

学习原理：选择一条数据，就训练一条数据

缺点∶
① 对于参数比较敏感，需要注意参数的初始化
② 容易陷入局部极小值
③ 当数据较多时，训练时间长
④ 每迭代一步，都要用到训练集所有的数据
Adagrad(Adaptive gradient，自适应梯度)

学习原理：将每一维各自的历史梯度的平方叠加起来，然后更新的时候除以该历史梯度值

这样每一个参数的学习率就与它们的梯度有关系了，那么每一个参数的学习率就不一样了

缺点：容易受到过去梯度的影响，导致学习率下降很快，能学到的更多知识的能力也越来越弱，就会提前停止学习。
RMSProp(root mean square prop，均方根)

学习原理∶在自适应梯度基础上引入了衰减因子，在梯度累积的时候，会对“过去”与“现在”做一个平衡，通过超参数进行调节衰减量。

适合处理非平稳目标（也就是与时间有关的)，对于RNN效果很好。
Adam(Adaptive momentum optimization，自适应动量优化)

是目前深度学习中最流行的优化方法，它结合了自适应梯度善于处理稀疏梯度和均方根善于处理非平稳目标的优点，适用于大数据集和高维空间。