问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

高斯分布下的最大似然法:揭秘机器学习的秘密武器

创作时间:
作者:
@小白创作中心

高斯分布下的最大似然法:揭秘机器学习的秘密武器

引用
CSDN
12
来源
1.
https://blog.csdn.net/LaineGates/article/details/141603557
2.
https://blog.csdn.net/qq_51320133/article/details/137912409
3.
https://blog.csdn.net/weixin_42973210/article/details/138761219
4.
https://blog.csdn.net/qq_51320133/article/details/137912409#t1
5.
https://blog.csdn.net/qq_51320133/article/details/137912409#t0
6.
https://blog.csdn.net/m0_65512360/article/details/137913177
7.
https://blog.csdn.net/2403_85344407/article/details/139328353
8.
https://blog.csdn.net/jhghuhbb/article/details/139370996
9.
http://54zh.cn/article/376
10.
https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1
11.
https://docs.pingcode.com/ask/ask-ask/201144.html
12.
https://www.cnblogs.com/BlogNetSpace/p/18265549

在机器学习和统计学中,最大似然估计(Maximum Likelihood Estimation,MLE)是一种广泛使用的参数估计方法。它通过最大化似然函数来寻找最有可能产生观测数据的模型参数。在不同的概率分布假设下,最大似然估计可以推导出不同的机器学习算法。本文将重点探讨在高斯分布和伯努利分布下,最大似然估计如何推导出最小二乘法和逻辑回归这两个重要算法。

高斯分布下的最大似然估计

高斯分布(Gaussian Distribution),也称为正态分布,是最常见的连续概率分布之一。其概率密度函数(Probability Density Function,PDF)为:

其中,μ 是均值,σ 是标准差。在机器学习中,当我们假设数据服从高斯分布时,可以使用最大似然估计来估计模型参数。

假设我们有一组独立同分布(Independent and Identically Distributed,IID)的观测数据 (X = {x_1, x_2, ..., x_n}),并且假设这些数据服从均值为 μ、方差为 σ² 的高斯分布。那么,似然函数 (L(μ, σ² | X)) 可以表示为:

为了简化计算,我们通常使用对数似然函数,因为对数函数是单调递增的,不会改变最大值的位置。对数似然函数为:

接下来,我们分别对 μ 和 σ² 求偏导数,并令其等于零,以找到最大值点:


解得:

这表明,在高斯分布假设下,最大似然估计得到的均值就是样本均值,方差就是样本方差。

与最小二乘法的关系

在回归问题中,我们通常假设目标变量 y 与输入变量 x 的关系可以表示为:

其中,ε 是误差项,假设其服从均值为 0、方差为 σ² 的高斯分布。根据高斯分布的性质,y 也服从高斯分布,其均值为 (θ^Tx),方差为 σ²。

此时,似然函数可以表示为:

对数似然函数为:

为了最大化对数似然函数,我们需要最小化平方误差项 (\sum(y_i - θ^Tx_i)^2)。这正是最小二乘法的目标。因此,在高斯分布假设下,最大似然估计等价于最小二乘法。

伯努利分布下的最大似然估计

伯努利分布(Bernoulli Distribution)是二项分布的特殊情况,用于描述只有两种可能结果(如成功或失败)的随机变量。其概率质量函数(Probability Mass Function,PMF)为:

其中,p 是成功的概率,x 是随机变量,取值为 0 或 1。

在逻辑回归(Logistic Regression)中,我们假设输出变量 y 服从伯努利分布,即 y ∈ {0, 1}。逻辑回归通过 sigmoid 函数将线性模型的输出映射到 [0, 1] 区间,表示成功的概率:

其中,(z = θ^Tx) 是线性组合,θ 是模型参数。

似然函数可以表示为:

对数似然函数为:

为了最大化对数似然函数,我们通常使用梯度上升法或牛顿法等优化算法。在逻辑回归中,这等价于最小化交叉熵损失函数(Cross-Entropy Loss)。

总结

通过上述推导,我们可以看到最大似然估计在不同分布下的应用:

  1. 在高斯分布下,最大似然估计推导出了最小二乘法,适用于回归问题。
  2. 在伯努利分布下,最大似然估计推导出了逻辑回归,适用于分类问题。

这些结果表明,最大似然估计是一种强大的参数估计方法,能够根据不同的概率分布假设推导出合适的机器学习算法。理解这些背后的数学原理,不仅能帮助我们更好地理解机器学习算法,还能在实际应用中做出更明智的选择。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号