问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习中的概率论与数理统计基础

创作时间:
作者:
@小白创作中心

机器学习中的概率论与数理统计基础

引用
CSDN
1.
https://blog.csdn.net/2301_80132162/article/details/140572477

概率论与数理统计是机器学习的重要基础,本文将从条件概率、贝叶斯定理、概率分布、最大似然估计、正则化等核心概念出发,系统地介绍机器学习中常用的概率论和数理统计知识。

条件概率

条件概率是概率论中的一个核心概念,用于描述在已知某个事件发生的条件下,另一个事件发生的概率。设A和B是两个事件,其中P(B) > 0,则在事件B发生的条件下,事件A发生的条件概率记为P(A|B),其计算公式为:

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

其中,P(A ∩ B)表示事件A和B同时发生的概率,P(B)表示事件B发生的概率。

条件概率可以分为独立事件和非独立事件两种情况:

  • 独立事件:如果事件A和B相互独立,即事件A的发生不会影响事件B的发生,反之亦然,则有P(A|B) = P(A),此时事件A和B的交集为:

$$
P(A \cap B) = P(A)P(B)
$$

  • 非独立事件:如果事件A和B相互依赖,即事件A的发生会影响事件B的发生,反之亦然,则有P(A|B) ≠ P(A),此时事件A和B的交集为:

贝叶斯定理

贝叶斯定理是概率论中的一个重要定理,用于描述在已知某些条件下,事件发生的概率如何更新。设A和B是两个事件,其中P(B) > 0,则贝叶斯定理可以表示为:

$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$

其中,P(A|B)是在事件B发生的条件下,事件A发生的条件概率;P(B|A)是在事件A发生的条件下,事件B发生的条件概率;P(A)和P(B)分别是事件A和B发生的先验概率。

贝叶斯定理可以分为先验概率、后验概率和自然贝叶斯三种情况:

  • 先验概率:在没有观察到任何数据之前,对事件发生的概率的主观判断。
  • 后验概率:在观察到一些数据之后,对事件发生的概率的更新。
  • 自然贝叶斯:在有多个先验的前提下,假设它们相互独立,利用公式算出来的近似概率。

贝叶斯定理在机器学习中有广泛的应用,例如在条件概率生成像素、条件概率识别图像等场景中。

概率分布

概率分布是描述随机变量取值的概率规律的函数。根据随机变量的类型,概率分布可以分为离散型概率分布和连续型概率分布两种。

  • 离散型概率分布:适用于离散型随机变量,其概率分布可以用概率质量函数(PMF)来描述。概率质量函数表示随机变量取某个特定值的概率,记为P(X = x)。

  • 连续型概率分布:适用于连续型随机变量,其概率分布可以用概率密度函数(PDF)来描述。概率密度函数表示随机变量取某个值区间的概率密度,记为f(x)。需要注意的是,连续型随机变量取某个特定值的概率为0,因此需要通过积分来计算概率。

常见的概率分布包括伯努利分布、二项分布、均匀分布和正态分布等。

  • 伯努利分布:描述只有两种可能结果的随机试验的概率分布,例如抛硬币。伯努利分布的概率质量函数为:

$$
P(X = x) = p^x(1-p)^{1-x}
$$

其中,x取值为0或1,p是成功的概率。

  • 二项分布:描述在n次独立重复的伯努利试验中,成功次数的概率分布。二项分布的概率质量函数为:

$$
P(X = k) = \binom{n}{k}p^k(1-p)^{n-k}
$$

其中,k是成功次数,n是试验次数,p是每次试验成功的概率。

  • 均匀分布:描述在某个区间内取值的概率分布,其概率密度函数在一个范围[a, b]为定值:

  • 正态分布:描述在自然界和社会现象中常见的钟形曲线概率分布,其概率密度函数为:

其中,μ是对称中心,σ是标准差,直接决定曲线的高度和形状。

最大似然估计

最大似然估计(Maximum Likelihood Estimation,MLE)是一种用于估计统计模型参数的方法。最大似然估计通过找到使得观测数据出现的概率最大的参数值,来估计模型参数。设X1, X2, ..., Xn是来自总体X的样本,θ是总体X的未知参数,L(θ)是似然函数,即样本X1, X2, ..., Xn在参数θ下的联合概率密度函数。最大似然估计的目标是找到使L(θ)最大的θ值,即:

$$
\hat{\theta} = \arg\max_{\theta} L(\theta)
$$

在实际应用中,为了方便计算,通常对似然函数取对数,得到对数似然函数:

$$
\ell(\theta) = \log L(\theta)
$$

然后求对数似然函数的导数,令导数等于0,解出θ的值。

最大似然估计在机器学习中有广泛的应用,例如在伯努利分布、高斯分布、线性回归等模型的参数估计中。

正则化

正则化(Regularization)是一种用于防止机器学习模型过拟合的技术。过拟合是指模型在训练数据上表现良好,但在新数据(测试集)上表现不佳,即模型过于复杂,以至于捕捉了训练数据中的噪音和细节,无法很好地推广到新的数据。正则化通过在损失函数中增加一个惩罚项,限制模型的复杂度,从而提高模型的泛化能力。

常见的正则化方法包括L1正则化和L2正则化。L2正则化是最常用的一种正则化方法,其惩罚项为模型参数的平方和:

$$
\Omega(\theta) = \lambda\sum_{i=1}^n\theta_i^2
$$

其中,λ是正则化参数,控制惩罚项的强度。

正则化在机器学习中有广泛的应用,例如在多项式拟合、线性回归等模型中。

贝叶斯统计

贝叶斯统计将概率解释为对不确定事件的主观信念或信念程度。它通过更新这种信念来进行统计推断。贝叶斯统计的核心是贝叶斯公式:

$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$

其中,P(A|B)是在事件B发生的条件下,事件A发生的条件概率;P(B|A)是在事件A发生的条件下,事件B发生的条件概率;P(A)和P(B)分别是事件A和B发生的先验概率。

贝叶斯统计的特点是先验很大程度上影响着后验。在没有任何信息的先验情况下,均匀分布的PDF函数的最大后验就是MLE。如果有充分数据,MLE和MAP估计是一样的。

贝叶斯统计在机器学习中有广泛的应用,例如在贝叶斯网络、贝叶斯优化等场景中。

总结

概率论与数理统计是机器学习的重要基础,本文介绍了条件概率、贝叶斯定理、概率分布、最大似然估计、正则化等核心概念和方法。这些知识在机器学习中有广泛的应用,例如在条件概率生成像素、条件概率识别图像、最大似然估计参数、正则化防止过拟合等场景中。掌握这些知识对于理解和应用机器学习算法具有重要意义。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号