机器学习中的数学基础:导数、偏导数、方向导数、梯度与梯度下降
机器学习中的数学基础:导数、偏导数、方向导数、梯度与梯度下降
机器学习是当今科技领域的热门话题,而其背后的数学基础是理解机器学习算法的关键。本文将详细介绍机器学习中常用的数学概念,包括导数、偏导数、方向导数、梯度和梯度下降,帮助读者建立扎实的数学基础。
一、导数
导数反映的是函数y=f(x)在某一点处沿x轴正方向的变化率(切线斜率)。
导数值越大,表示函数在该点处的变化越大。
定义:当函数
在自变量
上产生一个增量
时,函数输出值的增量
和自变量增量
之间的比值在
趋近与0的时候存在极限值
,那么
即为函数在
处的导数值。
二、偏导
在多元函数中,偏导数指的是函数
沿某一坐标轴
正方向的变化率。
在一个多变量的函数中,偏导数就是关于其中一个变量的导数而保持其它变量恒定不变。
假定二元函数
,点
是其定义域内的一个点,将
固定在
上,而
在
上增量
,相应的函数
有增量
;
和
的比值当
的值趋近于0的时候,如果极限存在,那么此极限值称为函数
在处对
的偏导数(partial derivative)
只有
变化,其他变量都是固定值。
三、方向导数
导数和偏导数都是沿坐标轴正方向的变化率。那么当我们讨论函数沿任意方向的变化率时,也就引出了方向导数的定义,即:某一点在某一趋势方向上的导数值。
通俗的解释是:
我们不仅要知道函数在坐标轴正方向上的变化率(偏导数),而且还要设法求得函数在其他特定方向上的变化率(方向导数)。
四、梯度
梯度:梯度是一个向量,表示某一函数在该点处的方向导数! 沿着该方向取的最大值,即函数在该点处沿着该方向变化最快,变化率最大(变化率的大小即该梯度向量的模)
梯度的提出只为回答一个问题:
函数在变量空间的某一点处,沿着哪一个方向有最大的变化率?
注意:
1)梯度是一个向量,即有方向有大小;
2)梯度的方向是最大方向导数的方向;
3)梯度的值是最大方向导数的值。
梯度下降法:梯度为函数沿梯度方向具有最大的变化率,那么在用梯度下降法优化目标函数的时,要是沿着负梯度方向去减小函数值,以达到最优化目标。
五、总结
1、导数定义
导数代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的变化的比值。几何意义是这个点的切线。物理意义是该时刻的(瞬时)变化率。
注意:在一元函数中,只有一个自变量变动,也就是说只存在一个方向的变化率,这也就是为什么一元函数没有偏导数的原因。(derivative)
2、偏导数
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
注意:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。(partial derivative)
3、方向导数
在某点沿着某个向量方向上的方向导数,描绘了该点附近沿着该向量方向变动时的瞬时变化率。这个向量方向可以是任一方向。
方向导数的物理意义表示函数在某点沿着某一特定方向上的变化率。
注意:导数、偏导数和方向导数表达的是函数在某一点沿某一方向的变化率,也是具有方向和大小的。(directional derivative)
4、梯度
函数在给定点处沿不同的方向,其方向导数一般是不相同的。那么沿着哪一个方向其方向导数最大,其最大值为多少,这是我们所关心的,为此引进一个很重要的概念:梯度。
5、梯度下降
梯度下降法(Gradient Descent,GD)常用于求解无约束情况下凸函数(Convex Function)的极小值,是一种迭代类型的算法,因为凸函数只有一个极值点,故求解出来的极小值点就是函数的最小值点。
在机器学习中往往是最小化一个目标函数 L(Θ),理解了上面的内容,便很容易理解在梯度下降法中常见的参数更新公式:
通过算出目标函数的梯度(算出对于所有参数的偏导数)并在其反方向更新完参数 Θ ,在此过程完成后也便是达到了函数值减少最快的效果,那么在经过迭代以后目标函数即可很快地到达一个极小值。
6、物理意义
概念 物理意义
导数 函数在该点的瞬时变化率
偏导数 函数在坐标轴方向上的变化率
方向导数 函数在某点沿某个特定方向的变化率
梯度 函数在该点沿所有方向变化率最大的那个方向
本文转自:机器学习—数学基础—导数、偏导、方向导数、梯度、梯度下降_在0处导数最小为0,随x增大导数增加的函数-CSDN博客