资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

解析解方法求解线性回归

创作时间:

作者:

@小白创作中心

解析解方法求解线性回归

引用

CSDN

https://blog.csdn.net/weixin_44748456/article/details/144745533

线性回归是机器学习中最基本的模型之一，而解析解方法是求解线性回归参数的重要手段。本文将从损失函数的最小化目标出发，详细推导θ的解析解形式，并讨论损失函数的凸性判断。

1. 解析解的推导

我们现在有了损失函数形式，也明确了目标就是要最小化损失函数，那么接下来问题就是θ什么时候可以使得损失函数最小了。

最小二乘形式变化个写法

我们先把损失函数变化个形式：

$$
J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2 = \frac{1}{2}(X\theta - y)^T(X\theta - y)
$$

补充说明：

$$
J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2
$$

$$
= \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})(h_{\theta}(x^{(i)}) - y^{(i)})
$$

这里就等价于一个长度为$m$的向量乘以它自己，说白了就是对应位置相乘相加。

$$
\left[\begin{array}{c}
a_1 \
a_2 \
\vdots \
a_{n-1} \
a_n
\end{array}\right] \cdot
\left[\begin{array}{c}
b_1 \
b_2 \
\vdots \
b_{n-1} \
b_n
\end{array}\right] = a_1b_1 + a_2b_2 + \cdots + a_{n-1}b_{n-1} + a_nb_n
$$

用连加号写：

$$
\mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n}a_ib_i.
$$

推导出θ的解析解形式

给定损失函数$J(\theta)$为：

$$
J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2
$$

其中，$h_{\theta}(x^{(i)}) = \theta^T x^{(i)}$。

我们可以将上述表达式转换为矩阵形式：

$$
J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(\theta^T x^{(i)} - y^{(i)})^2
$$

进一步展开：

$$
J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(\theta^T x^{(i)} - y^{(i)})(\theta^T x^{(i)} - y^{(i)})
$$

$$
J(\theta) = \frac{1}{2}(X\theta - y)^T(X\theta - y)
$$

$$
J(\theta) = \frac{1}{2}((X\theta)^T - y^T)(X\theta - y)
$$

$$
J(\theta) = \frac{1}{2}(\theta^T X^T - y^T)(X\theta - y)
$$

$$
J(\theta) = \frac{1}{2}(\theta^T X^T X\theta - \theta^T X^T y - y^T X\theta + y^T y)
$$

为了找到使$J(\theta)$最小化的$\theta$，我们需要对$\theta$求导并令其等于0：

$$
\nabla_{\theta} J(\theta) = 0
$$

为了方便理解，大家可以把下图的横轴看成是θ轴，纵轴看成是loss损失，曲线是loss function，然后你开着小车去寻找最优解

如果我们把最小二乘看成是一个函数曲线，极小值（最优解）一定是个驻点，驻点顾名思义就是可以停驻的点，而图中你可以看出驻点的特点是统统梯度为0
梯度：函数在某点上的切线的斜率如何求？求函数在某个驻点上的一阶导数即为切线的斜率更近一步，或者反过来说，就是我们是不是可以把函数的一阶导函数形式推导出来

计算梯度：

$$
\nabla_{\theta} J(\theta) = \frac{1}{2} \nabla_{\theta} (\theta^T X^T X\theta - \theta^T X^T y - y^T X\theta + y^T y)
$$

$$
\nabla_{\theta} J(\theta) = \frac{1}{2} (2X^T X\theta - X^T y - X^T y)
$$

$$
\nabla_{\theta} J(\theta) = X^T X\theta - X^T y
$$

令梯度等于0：

$$
X^T X\theta - X^T y = 0
$$

$$
X^T X\theta = X^T y
$$

解得：

$$
\theta = (X^T X)^{-1} X^T y
$$

这就是$\theta$的解析解形式。

2. 判定损失函数凸函数

判定损失函数是凸函数的好处在于我们可能很肯定的知道我们求得的极值即最优解，一定是全局最优解。

判定凸函数的方式：

判定凸函数的方式非常多，其中一个方法是看黑塞矩阵是否是半正定的。

黑塞矩阵（hessian matrix）是由目标函数在点X处的二阶偏导数组成的对称矩阵。对于我们的式子来说，就是在导函数的基础上再次对θ来求偏导，说白了不就是

$X^TX$。所谓正定就是A的特征值全为正数，那么是正定的。半正定就是A的特征值大于等于0，就是半正定。

这里我们对J损失函数求二阶导的黑塞矩阵是$X^TX$，之后得到的一定是半正定的，自己

和自己做点乘嘛！此处不用深入去找数学推导证明这一点，还有就是机器学习中往往损失函数都是凸函数，到深度学习中损失函数往往是非凸函数，即找到的解未必是全局最优，只要模型堪用就好！

ML学习特点，不强调模型100%正确，是有价值的，堪用的！

热门推荐

昆明植物所揭示烟酰胺缓解重金属Cd对植物毒性的机制

居高声自远，非是藉秋风——论个人品格的力量与自我提升的价值

会计师责任是什么

威灵仙：小小药材，大大能量！祛风湿、止疼痛、通经络

初中怎么明确学习目的(初中生明确学习目的的步骤)

【处世哲理】君子四不为：不妄动、不徒语、不苟求、不虚行

亲哥找弟弟借钱怎么办呢

少林文化的全球脚步

旅途贵宾旅行文件整理，护照签证机票全攻略

为什么要进行技术分析？这种分析方法如何提升投资决策的准确性？

汽油触底反弹柴油偏强区间震荡

深入解析做空策略：高风险高回报的投资方式与注意事项

购车发票不见了严重吗？丢失后如何补办及办理过户？

假期聚会不醉不归？学会这5招，让你尽量喝酒不伤身！

18个省会城市常住人口1年增120万，加速集聚有何利弊

聚焦！电车续航深度剖析

每周运动30分钟，就有这么多好处？新研究：不仅减重、瘦腰，还能降低体脂率

立牌坊是什么意思？这个成语背后的历史和含义是什么？

六大行存款利率全面下调：告别"2字头"，存款理财"跷跷板"效应显现

如何观察国际黄金价值的变化？这种变化对国内市场有何关联？

揭秘生辰八字：五行命理精准查询指南

不同需求下无线鼠标怎么选

紫微斗数：命宫与身宫的区别解析

断了的医保怎样补交更及时？及时补交的好处有哪些？

手机订票取票详解：流程、注意事项与操作指南

显卡黑屏怎么办？多种实用测试工具和诊断方法详解

家常煎牛肉腌制教程：从选材到享用的完美指南

2024年买房与租房的选择分析

武汉甲康医院杨育峰教授：甲亢患者的9项饮食建议

黄金的阻力位和支撑位如何确定？这些点位对投资策略有何影响？