贝叶斯分类与最大似然估计:原理与应用
贝叶斯分类与最大似然估计:原理与应用
贝叶斯定理是概率统计中最经典的内容之一,它不仅在数学领域有着广泛的应用,而且在机器学习和统计学中也占据着重要的地位。本文将从贝叶斯定理的基本概念出发,介绍其在分类问题中的应用,并探讨与之密切相关的最大似然估计方法。
一、贝叶斯定理简介
贝叶斯(约1701-1761),全名Thomas Bayes,英国数学家。约1701年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。
贝叶斯定理在概率统计是最经典的内容之一,但是本人却是一个谜团。没人知道他是怎么当选英国皇家学会会士,也没有记录表明他发表过任何科学或数学论文,据说他从事数学研究的目的是为了证明上帝的存在。贝叶斯定理是被后来的数学家拉普拉斯推广为熟知。
注:贝叶斯学派略,参数是稳定值还是随机变量的问题。
贝叶斯定理的应用场景
在日常生活中,我们经常会遇到需要计算概率的情况。例如,假设我们有两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?
这个问题可以通过贝叶斯定理来解决。贝叶斯定理主要用于解决"逆问题",即从已知结果反推原因的概率。在上述例子中,我们需要计算在已知摸出的是水果糖的情况下,这个水果糖来自一号碗的概率。
准备知识
在深入理解贝叶斯定理之前,我们需要了解一些相关的数学概念:
大数定理(伯努利):当实验的次数无限时,在某种收敛意义下逼近某一定数。根据大数定理,当训练集包含充足的独立同分布样本时,P(C)先验概率可以通过各类样本的频率进行估计。
中心极限定理:在客观实际中有很多随机变量,它们是由大量的相互独立的随机因素的综合影响所形成。而其中每一个因素在总的影响中所起的作用都是微小的,这种随机变量往往近似地服从正态分布。
条件概率:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率
全概率公式:P(A)=P (A|B1)P(B1)+P(A|B2)P(B2)+..P(A|Bn)P(Bn)
高斯分布
贝叶斯公式详解
贝叶斯公式可以表示为:
P(A|B) = P(B|A) * P(A) / P(B)
其中:
- P(B)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
- P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
后验概率 = (似然度 * 先验概率)/标准化常量
也就是说,后验概率与先验概率和似然度的乘积成正比。
实例:现分别有 A,B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?
假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:
P(B) = 8 / 20
P(A) = 1 / 2
P(B | A) = 7 / 10
按照公式,则有:
P(A|B) = (7 / 10) * (1/ 2) / (8/20) = 0.875
最大似然估计与贝叶斯分类
最大似然估计
最大似然分类(maximum likelihood classification)是在两类或多类判决中,用统计方法根据最大似然比贝叶斯判决准则法建立非线性判别函数集,假定各类分布函数为正态分布,并选择训练区,计算各待分类样区的归属概率,而进行分类的一种图像分类方法。又称为贝叶斯(Bayes)分类法,是根据Bayes准则对遥感影像进行分类的。
设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率;当已知的时候,它又变成的函数,可以把它记为,称此函数为似然函数。似然函数值的大小意味着该样本值出现的可能性的大小,既然已经得到了样本值,那么它出现的可能性应该是较大的,即似然函数的值也应该是比较大的,因而最大似然估计就是选择使达到最大值的那个作为真实的估计。
主要这里似然函数是一个联合属性分布概率,和类条件概率是有关系的,也就有贝叶斯有关。最大值的估计,可以用概率判别属于哪一类的问题。也可以说是这类中像素中包含这个点的概率。在应用中就是,哪一类的概率高,认为属于哪一类。
在下面的最大似然估计求解过程,首先要注意要有一个属于分布,然后注意极值LOG后去偏导,找到估计最大值。
决策过程
样本X出现的后验概率作为判别函数来确定所用类型,先验概率转化为后验概率,中间需要训练样本的类条件概率(概率密度函数),最后用后验概率最大原则确定样本所属于类型。
其中判别函数可以分类界限,是由公式决定,如下公式和图
其中对于类条件概率(联合概率)又分为,
- 基于最小错误率的贝叶斯分类
- 基于最小风险的贝叶斯分类
因为最小错误不一定是最好,有时候需要牺牲错误率,而减少风险,例如把好药错当我坏药要比把坏药当作好药的结果要好。
最大似然估计与贝叶斯分类的联系与区别
- 最大似然估计是求似然函数的最大,可以决定点属于哪类概率 对点的估计
- 贝叶斯估计是求似然函数*先验概率的最大,是对分布的估计
- 两者决策有相同。
贝叶斯分类的拓展
贝叶斯分类虽然在很多场景下都非常有效,但也存在一些局限性。为了克服这些局限性,人们发展出了多种基于贝叶斯理论的扩展方法,如随机漫步(random walk)、马尔科夫链(markov chain)和EM算法等。这些方法在处理复杂数据和高维空间问题时,展现出了更强的适应性和鲁棒性。