机器学习实战：最小二乘法

创作时间:

作者:

@小白创作中心

机器学习实战：最小二乘法

引用

来源

https://cloud.tencent.com/developer/article/2214723

最小二乘法是机器学习中用于求解线性回归问题的重要方法。本文将从多元线性回归的数学表达式出发，详细推导最小二乘法的损失函数，并解释如何通过求偏导数来最小化损失函数。此外，文章还将讨论矩阵逆存在的条件、多重共线性等问题，并提供相应的解决方案。

最小二乘法推导

多元线性回归的写法为：
$$ y = w_1x_1+w_2x_2+...+w_dx_d+b $$

与数学中不同的是，在机器学习中，系数 $w$ 和截距 $b$ 是需要求得的未知数，而特征 $x$ 和标签 $y$ 则是已知的。

将上述方程写成矩阵形式：
$$ y = w^Tx+b $$

此时的 $w$ 和 $x$ 都是矩阵，其中 $w = [w_1, w_2, ..., w_d]^T$，$x = [x_1, x_2, ..., x_d]^T$。

普通线性回归的目标是求得 $w$ 和 $b$ 两个参数，其中 $w$ 实际上是权重的简写，表示自变量的权重。

普通线性回归常用的损失函数（L）是SSE（误差平方和），即（真实值-预测值）的平方之和：
$$L(\hat w) = \sum{i=1}^{m}\left(y{i}-\hat{y}{i}\right)^{2}=\sum{i=1}^{m}\left(y{i}-\boldsymbol{X}{i} \boldsymbol{w}\right)^{2}= ||y - X\hat w||_2^2 = (y - X\hat w)^T(y - X\hat w)$$

其中 $||y - X\hat w||_2^2$ 称为2范数，不过在这里暂时用不到。

可以看到，损失函数是关于参数 $w$ 的函数。目标是对损失函数求最小值，因此可以让其偏导数等于0。

如果只有一个特征，可以在二维图中展示：

可以看到，模型使用一条直线拟合散点，损失函数就是真实值到预测值的欧式距离的和，求损失函数最小值即是使直线尽可能拟合到更多的点。

对 $w$ 求偏导：

$$\begin{aligned}
\frac{SSELoss(\hat w)}{\partial{\boldsymbol{\hat w}}}
&= \frac{\partial{||\boldsymbol{y} - \boldsymbol{X\hat w}||_2}^2}{\partial{\boldsymbol{\hat w}}}
\
&= \frac{\partial(\boldsymbol{y} - \boldsymbol{X\hat w})^T(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}} \
& =\frac{\partial(\boldsymbol{y}^T - \boldsymbol{\hat w^T X^T})(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\
&=\frac{\partial(\boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{\hat w^T X^Ty}-\boldsymbol{y}^T\boldsymbol{X \hat w} +\boldsymbol{\hat w^TX^T}\boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\
& = 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty}+X^TX\hat w+(X^TX)^T\hat w \
&= 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty} + 2\boldsymbol{X^TX\hat w}\
&= 2(\boldsymbol{X^TX\hat w} - \boldsymbol{X^Ty}) = 0
\end{aligned}$$

得到 $X^TX\hat w = X^Ty$。

要使得此式有解，等价于 $X^TX$ 存在逆矩阵，即 $\hat w = (X^TX)^{-1}X^Ty$。

$X$ 和 $y$ 都已知，带入即可求得 $w$ 矩阵，最终求得 $b$。

所以使用最小二乘法是有条件的，其中一个便是 $X^TX$ 存在逆矩阵。因此在机器学习中有更普适的求解损失函数最小值的方法，比如梯度下降。