问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

跟着StatQuest学知识02-链式法则与梯度下降法

创作时间:
作者:
@小白创作中心

跟着StatQuest学知识02-链式法则与梯度下降法

引用
CSDN
1.
https://blog.csdn.net/m0_74803856/article/details/145968444

在机器学习和深度学习中,链式法则和梯度下降法是两个非常重要的基础概念。本文将通过简单的数学推导和实例,帮助读者理解这两个概念的本质,并展示它们在实际问题中的应用。

一、引入

有如下两个关系图:

可以根据体重预测身高,进而根据身高预测鞋码。

通过一些数学推导,可以得出鞋码对体重的导数= 鞋码对身高的导数×身高对体重的导数。这就是链式法则的本质

二、残差平方和

残差平方和是机器学习中常用的损失函数

为了求截距为何值时,残差的平方最小,就要求残差平方对截距的导数何时为0。

根据链式法则,残差平方对截距的倒数=残差平方对残差的导数 × 残差对截距的导数。

最后,我们看到截距等于1时,残差平方和最小

三、梯度下降法

为什么要选择梯度下降法,直接求导不准确吗?

  • 显示数据往往复杂且求导困难
  • 算力消耗大,梯度下降法更高效

初始有三个点,为三个点拟合一个函数(选取截距和斜率)。这里选用残差平方和作为损失函数。

(一)定斜率,选截距

因此就要求残差平方和(损失函数)对截距的导数为0的时候。梯度下降法步骤如下:

  1. 代入三个点的横纵坐标,求出残差平方和对截距的导数的表达式。
  2. 选取一个起始截距值(这里选0)代入得到结果。
  3. 将结果代入步长计算公式(×一个学习率)得到步长,得到新的截距(旧截距加步长)
  4. 重复直至步长接近0。

通过这个步骤可以看出,梯度下降法就是在远离目标时选取大步长,接近目标时选取小步长

(二)定截距,选斜率

与(一)同理,最后得到一个三维图。在 【官方双语】零基础梯度下降法,手把手教你优化损失函数! 第16分钟。

注意:当你有同一个函数的两个或更多的导数时,它们被称为梯度

选取初始值,然后再计算出斜率和截距分别的步长

当参数更多时,那么我们只需要取更多的导数,其他一切保持不变。

四、补充

残差平方和只是一种损失函数,对于其他类型的损失函数,梯度下降法的工作原理都一样。

现在回到步骤3并重复,直到步长非常小或你达到了最大步数。

另外,当数据量增大时,有一种叫做随机梯度下降的方法,即随机选取全部数据的子集计算。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号