高斯分布下的最大似然法:揭秘机器学习的秘密武器
高斯分布下的最大似然法:揭秘机器学习的秘密武器
在机器学习和统计学中,最大似然估计(Maximum Likelihood Estimation,MLE)是一种广泛使用的参数估计方法。它通过最大化似然函数来寻找最有可能产生观测数据的模型参数。在不同的概率分布假设下,最大似然估计可以推导出不同的机器学习算法。本文将重点探讨在高斯分布和伯努利分布下,最大似然估计如何推导出最小二乘法和逻辑回归这两个重要算法。
高斯分布下的最大似然估计
高斯分布(Gaussian Distribution),也称为正态分布,是最常见的连续概率分布之一。其概率密度函数(Probability Density Function,PDF)为:
其中,μ 是均值,σ 是标准差。在机器学习中,当我们假设数据服从高斯分布时,可以使用最大似然估计来估计模型参数。
假设我们有一组独立同分布(Independent and Identically Distributed,IID)的观测数据 (X = {x_1, x_2, ..., x_n}),并且假设这些数据服从均值为 μ、方差为 σ² 的高斯分布。那么,似然函数 (L(μ, σ² | X)) 可以表示为:
为了简化计算,我们通常使用对数似然函数,因为对数函数是单调递增的,不会改变最大值的位置。对数似然函数为:
接下来,我们分别对 μ 和 σ² 求偏导数,并令其等于零,以找到最大值点:
解得:
这表明,在高斯分布假设下,最大似然估计得到的均值就是样本均值,方差就是样本方差。
与最小二乘法的关系
在回归问题中,我们通常假设目标变量 y 与输入变量 x 的关系可以表示为:
其中,ε 是误差项,假设其服从均值为 0、方差为 σ² 的高斯分布。根据高斯分布的性质,y 也服从高斯分布,其均值为 (θ^Tx),方差为 σ²。
此时,似然函数可以表示为:
对数似然函数为:
为了最大化对数似然函数,我们需要最小化平方误差项 (\sum(y_i - θ^Tx_i)^2)。这正是最小二乘法的目标。因此,在高斯分布假设下,最大似然估计等价于最小二乘法。
伯努利分布下的最大似然估计
伯努利分布(Bernoulli Distribution)是二项分布的特殊情况,用于描述只有两种可能结果(如成功或失败)的随机变量。其概率质量函数(Probability Mass Function,PMF)为:
其中,p 是成功的概率,x 是随机变量,取值为 0 或 1。
在逻辑回归(Logistic Regression)中,我们假设输出变量 y 服从伯努利分布,即 y ∈ {0, 1}。逻辑回归通过 sigmoid 函数将线性模型的输出映射到 [0, 1] 区间,表示成功的概率:
其中,(z = θ^Tx) 是线性组合,θ 是模型参数。
似然函数可以表示为:
对数似然函数为:
为了最大化对数似然函数,我们通常使用梯度上升法或牛顿法等优化算法。在逻辑回归中,这等价于最小化交叉熵损失函数(Cross-Entropy Loss)。
总结
通过上述推导,我们可以看到最大似然估计在不同分布下的应用:
- 在高斯分布下,最大似然估计推导出了最小二乘法,适用于回归问题。
- 在伯努利分布下,最大似然估计推导出了逻辑回归,适用于分类问题。
这些结果表明,最大似然估计是一种强大的参数估计方法,能够根据不同的概率分布假设推导出合适的机器学习算法。理解这些背后的数学原理,不仅能帮助我们更好地理解机器学习算法,还能在实际应用中做出更明智的选择。