经典统计学与贝叶斯统计学:两种统计学派的对比与应用
经典统计学与贝叶斯统计学:两种统计学派的对比与应用
统计学是数据分析的重要工具,其中经典统计学和贝叶斯统计学是两种主要的统计学派。本文将详细介绍这两种统计学派的基本概念、方法和区别,帮助读者更好地理解统计学的核心思想。
经典统计学
经典统计学使用频率学派的方法,依赖于样本数据的频率分布进行推断。在经典统计学中,参数被认为是固定但未知的,而推断过程主要是基于样本数据的统计性质进行。常见的经典统计方法包括置信区间、假设检验等。
思想:从样本中直接观察频率,然后通过该频率来估计总体的参数。
贝叶斯统计学
贝叶斯统计学使用贝叶斯学派的方法,将参数看作是一个随机变量,并使用先验分布和后验分布来进行推断。在贝叶斯统计学中,参数的不确定性通过一个先验分布来表示,并通过样本数据更新为一个后验分布。常见的贝叶斯统计方法包括贝叶斯估计、贝叶斯因子等。
思想:在先验的基础上,结合“新数据”,给出未知参数。
先验概率
先验概率是指在未考虑任何具体观测数据或新信息之前,对某个事件或假设发生的概率的估计。它是基于先前的经验、历史数据、专家判断或者其他背景知识来确定的概率。先验概率反映了我们对事件发生可能性的初始信念或不确定性。
例如:测试在一次抛硬币实验时的正反面的概率:
在实验开始之前,我们无法给出其结果的概率分布,但是根据历史经验,我们假定正面向上的概率为 0.5,这个就是先验概率。
后验概率
后验概率是在观察到某些数据或信息之后,对该事件或假设发生概率的修正后的估计。它是通过将先验概率与新的证据或数据相结合,利用贝叶斯定理计算得出的更新概率。后验概率更加反映实际情况,因为它考虑了新的证据影响。
例如:对一个个体进行了测试并得到了阳性结果,那么根据这个测试结果以及已知该测试的灵敏度和特异性,可以计算出该个体实际患有该疾病的概率,这就是后验概率。
似然概率
似然概率(likelihood probability)是指,在给定观测数据的条件下,所要推断的参数的取值出现的可能性。似然概率可以用来评估不同参数取值的可能性大小,并通过最大化似然概率来估计最有可能的参数取值。
似然概率与概率的区别在于,概率是在已知参数的情况下计算事件发生的概率,而似然概率则是在已知事件发生的情况下计算参数取值的可能性。
举个例子来说,假设有一枚硬币,我们想要估计它正面朝上的概率p。进行了10次独立的抛硬币的实验,结果有6次正面朝上。这里,似然概率是在已知有6次正面朝上的情况下,求p的取值可能性的函数。我们可以通过似然函数计算不同p取值下的似然概率,并找到使似然概率最大化的p值,从而估计硬币正面朝上的概率。
需要注意的是,似然概率本身并不是表示一个概率,因为它不一定满足概率的性质,例如总和为1。似然概率更多地用于参数估计和模型比较等统计推断中。
贝叶斯定理
贝叶斯定理是贝叶斯统计学的核心,其公式为:
P(H|E) = P(E|H) * P(H) / P(E)
其中:
- P(H)是先验概率
- P(H|E)是后验概率
- P(E|H)/P(E)被称为调整因子
- H表示Hypothesis(假设)
- E表示Evidence(证据)
贝叶斯定理的意义在于,给定一个先验概率P(H),在出现了证据E的情况下,计算后验概率P(H|E)。
如果P(H)=0,则P(H|E)=0;如果P(H)=1,则P(E|H)=P(E),P(H|E)=1。也就是说,如果先验概率为0%或100%,那么,无论出现任何证据E,都无法改变后验概率P(H|E)。
贝叶斯定理的实际应用
假设有一种疾病,发病率是0.1%。针对这种疾病的测试非常准确:
- 如果有病,则准确率是99%(即有1%未检出阳性)
- 如果没有病,则误报率是2%(即有2%误报为阳性)
现在,如果一个人测试显示阳性,请问他患病的概率是多少?
- P(E|H)表示患病时检测阳性的概率=99%
- P(H)表示患病的概率=0.1%
- P(E|H)表示没有患病但检测阳性的概率=2%
- P(H)表示没有患病的概率=1-P(H)=99.9%
代入公式,计算:
P(H|E) = (99% * 0.1%) / (99% * 0.1% + 2% * 99.9%) = 0.04721 = 4.721%
假设这个人又做了一次检测,结果仍然是阳性,那么他患病的概率是多少?
我们仍然使用贝叶斯定理计算,只不过现在先验概率P(H)不再是0.1%,而是4.721%,P(E|H)和P(E|H)仍保持不变,计算新的P(H|E):
P(H|E) = (99% * 4.721%) / (99% * 4.721% + 2% * (1-4.721%)) = 0.71 = 71%
结果为71%,两次检测为阳性的结果使得先验概率从0.1%提升到4.721%再提升到71%,继续第三次检测如果为阳性则概率将提升至99.18%。
可见,贝叶斯定理的核心思想就是不断根据新的证据,将先验概率调整为后验概率,使之更接近客观事实。
四世界法
这是小岛宽之的具现化贝叶斯定理的方法。将总体样本视为一个方块,人群中的患癌的概率为 1%,体检时误诊率为 10%,则如果确诊为阳性,则患病的概率为多少?
计算的样式实际上是患病阳性在整个红色中所占的概率:
(0.01 * 0.9)/ (0.01 * 0.9 + 0.1 *0.99) = 8.33%