微积分基础知识概述
微积分基础知识概述
微积分是数学的一个重要分支,它研究的是变化率和累积量。本文将从导数的定义出发,逐步介绍导函数运算、极值附近导数的性质、泰勒展式以及多元函数的偏导数等核心概念。这些知识不仅是数学理论的重要组成部分,也是学习机器学习、深度学习等领域的必备基础。
一、导数的定义
导数是微积分中的一个基本概念,用于衡量一个函数在某一点处的变化率。对于一个给定的函数$f(x)$,其在点$x$的导数可以定义为该函数在$x$点的瞬时变化率,也就是曲线在该点的切线斜率。
如图对$x_0$求导可写成如下表达式:
$$
\left.\frac{dy}{dx}\right|_{x=x_0}
$$
或
$$
\left.y^{\prime}\right|_{x=x_0}
$$
或
$$
f^{\prime}(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x) - f(x)}{\Delta x}
$$
二、导函数运算
当$x_0$发生变化时,函数$y=f(x)$在$x_0$点的导数也会发生相应的变化。因此,函数$y=f(x)$的导数本身也是$x$的函数,我们称为函数$y=f(x)$的导函数,记作:
$$
\frac{dy}{dx} \quad \text{或} \quad y^{\prime} \quad \text{或} \quad f^{\prime}(x)
$$
函数的导数是函数的一个重要性质,它表示的是函数在$x_0$的瞬间变化率,从其几何意义上来说,它表示的是函数的曲线在$x_0$的切线的斜率。
根据导数的定义,我们很容易得到以下的结论:
- 函数$y=C$(其中$C$是常数)的导函数是$y=0$。
- 函数$y=Cx$(其中$C$是常数)的导函数是$y=C$。
- 函数$y=Cx^2$(其中$C$是常数)的导函数是$y=2Cx$。
- $(\sin x)^{\prime} = \cos x$
- $(\cos x)^{\prime} = -\sin x$
- $(e^x)^{\prime} = e^x$
导数四则运算法则
- $[u(x) \pm v(x)]^{\prime} = u^{\prime}(x) \pm v(x)$
- $[u(x)v(x)]^{\prime} = u^{\prime}(x)v(x) + u(x)v^{\prime}(x)$
- $\left[\frac{u(x)}{v(x)}\right]^{\prime} = \frac{u^{\prime}(x)v(x) - u(x)v^{\prime}(x)}{[v(x)]^2}, \quad v(x) \neq 0$
- 复合函数求导法则
$$
{f[g(x)]}^{\prime} = f^{\prime}(u)g^{\prime}(x), \quad \text{其中} \quad u = g(x)
$$
复合函数的求导法则是理解反向传播机制的重要基础。
复合函数求导举例
假设我们有两个函数:
$$
g(x) = 2x + 3
$$
$$
f(u) = u^2, \quad \text{其中} \quad u = g(x)
$$
我们需要求复合函数$f(g(x))$的导数。首先,我们计算$f(g(x))$:
$$
f(g(x)) = f(2x+3) = (2x+3)^2
$$
现在我们使用复合函数求导法则求导:
$$
{f[g(x)]}^{\prime} = f^{\prime}(u)g^{\prime}(x)
$$
即
$$
{f[g(x)]}^{\prime} = f^{\prime}(g(x))g^{\prime}(x)
$$
首先求$g(x)$的导数$g^{\prime}(x)$:
$$
g^{\prime}(x) = \frac{d}{dx}(2x+3) = 2
$$
接着求$f(u)$在$u=g(x)$处的导数$f^{\prime}(g(x))$。由于$f(u) = u^2$,我们有:
$$
f^{\prime}(u) = \frac{d}{du}(u^2) = 2u
$$
将$u$替换为$g(x)$,得到${f[g(x)]}^{\prime}$:
$$
{f[g(x)]}^{\prime} = 2(2x+3)
$$
现在,我们可以将$f^{\prime}(g(x))$和$g^{\prime}(x)$相乘得到${f[g(x)]}^{\prime}$:
$$
{f[g(x)]}^{\prime} = f^{\prime}(g(x)) \cdot g^{\prime}(x) = 2(2x+3) \cdot 2
$$
简化得到
$$
{f[g(x)]}^{\prime} = 4(2x+3) = 8x+12
$$
三、极值附近导数的性质
设函数$f(x)$在$x_0$的某邻域$U(x_0)$内有定义,在$x_0$处取得极值,且$f(x_0)^{\prime}$存在,则$f(x_0)^{\prime} = 0$。
此处也称之为费马定理。
函数$f(x)$在$A, B, C$处取得极值,此时$f^{\prime}(x_A) = f^{\prime}(x_B) = f^{\prime}(x_C) = 0$。
性质归纳:
- 当导数大于0时,曲线上升;
- 导数小于0时,曲线下降;
- 导数为0时,函数在该点取得局部最大或最小值,并且在该点附近,导数的值变得非常小。
以上结论在学习梯度下降算法时有极重要的作用。
四、泰勒展式
$$
f(x) = f(x_0) + \frac{f^{\prime}(x_0)}{1!}(x-x_0) + \frac{f^{''}(x_0)}{2!}(x-x_0)^2 + \ldots + \frac{f^{n}(x_0)}{n!}(x-x_0)^n + R_n
$$
其中:
- $f^{(n)}(x_0)$表示函数$f(x)$在$x_0$点的第$n$阶导数。
- $n!$表示$n$的阶乘,即 $n!=n\times(n-1)\times\cdots\times1$。
泰勒展式是用一个函数在某点的信息,描述其附近取值的公式。如果函数足够平滑,在已知函数在某一点的各阶导数值的情况下,泰勒公式可以利用这些导数值来做系数,构建一个多
项式近似函数,求得在这一点的邻域中的值。
泰勒展式的用途:用一个多项式函数去逼近一个给定的函数(即尽量使多项式函数图像拟合给定的函数图像),注意,逼近的时候一定是从函数图像上的某个点展开。如果一个非常复
杂的函数,想求其某点的值,直接求无法实现,这时候可以使用泰勒展式去近似的求该值。
泰勒展式的一个重要应用是在物理学和工程学中,它可以用来近似计算复杂函数的值,尤其是在数值分析和计算科学中非常有用。此外,泰勒展式也是研究函数局部行为的重要工具,比如通过泰勒展式可以分析函数在某点的凹凸性、极值等性质。
五、多元函数的偏导数(以二元函数为例)
对于二元函数$z=f(x,y)$来说,它有2个自变量:$x, y$。我们可以求这个函数在$(x_0, y_0)$点的导数,该导数可以对变量$x$来求,也可以对变量$y$来求。
对变量$x$来求导数就是
$$
\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x, y_0) - f(x_0, y_0)}{\Delta x}
$$
它称为函数$z=f(x,y)$在$(x_0, y_0)$点对于$x$的偏导数,记作
$$
\left.\frac{\partial z}{\partial x}\right|_{x=x_0,y=y_0}
$$
或
$$
z_x|_{x=x_0,y=y_0}
$$
或
$$
f_x(x_0, y_0)
$$
对于变量$y$来求导数就是
$$
\lim_{\Delta x \to 0} \frac{f(x_0, y_0 + \Delta y) - f(x_0, y_0)}{\Delta y}
$$
它称为函数$z=f(x,y)$在$(x_0, y_0)$点对于$y$的偏导数,记作
$$
\left.\frac{\partial z}{\partial y}\right|_{x=x_0,y=y_0}
$$
或
$$
z_y|_{x=x_0,y=y_0}
$$
或
$$
f_y(x_0, y_0)
$$
偏导函数
与导数类似,函数$z=f(x,y)$对于变量$x$的偏导数也是$x, y$的函数,称为函数$z=f(x,y)$对于变量$x$的偏导函数,记作
$$
\frac{\partial z}{\partial x} \quad \text{或} \quad z_x \quad \text{或} \quad f_x(x, y)
$$
同样,函数$z=f(x,y)$对于变量$x$的偏导数也是$x, y$的函数,称为函数$z=f(x,y)$对于变量$y$的偏导函数,记作
$$
\frac{\partial z}{\partial y} \quad \text{或} \quad z_y \quad \text{或} \quad f_y(x, y)
$$
梯度
多元函数的梯度是一个向量,包含了函数对所有变量的偏导数。对于函数$f(x, y)$,梯度$\nabla f$定义为:
$$
\nabla f = \left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right)
$$
偏导数的意义
函数$z=f(x,y)$在$(x_0, y_0)$点对于变量$x$的偏导数是变量$y$不变情况下变量$x$在$(x_0,y_0)$点的瞬间变化率;函数$z=f(x,y)$在$(x_0, y_0)$点对于变量$y$的偏导数是变量$x$不变情况下变量$y$在$(x_0, y_0)$点的瞬间变化率。
多元函数的偏导数同样是理解梯度下降算法的重要基础。
二元函数的求导举例
假设我们有一个二元函数$f(x, y) = x^2y$,我们要求它在$(x_0, y_0)$的偏导数和梯度。
- 关于$x$的偏导数:
此时将$y$当作常数
$$
\frac{\partial f}{\partial x} = \frac{\partial}{\partial x}(x^2y) = 2xy
$$
- 关于$y$的偏导数:
此时将$x$当作常数
$$
\frac{\partial f}{\partial y} = \frac{\partial}{\partial y}(x^2y) = x^2
$$
- 梯度向量:
$$
\nabla f = \left(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y}\right) = (2xy, x^2)
$$