深入浅出:4种经典概率分布模型,用抛硬币一次说清!
深入浅出:4种经典概率分布模型,用抛硬币一次说清!
在统计的学习中,我们会接触到不少模型,但仔细梳理,发现常用和经典的,非等概率模型、几何分布、二项式分布和指数分布莫数。
为了帮助大家更好地理解,本文想通过一个抛硬币的例子,来说清这些模型的使用场景,以及模型间的联系和区别。
为方便理解,文章会舍弃一些无关紧要的细节,只留下必要的信息。在此文中,我们假设抛硬币只有正反两种情况。
等概率模型
简单来说,等概率模型就是“五十五十”或者“一半一半”。
用经典的抛硬币的例子,抛硬币正面朝上的概率是50%,反面亦然,正反面朝上就是抛硬币结果的两个随机变量,为了更清楚的展示,我们可以用表1呈现:
也可用图2来说明:
适当拓展,掷骰子也是一样的,只不过随机变量的数量和取值发生了变化——不是两个值(正或反),而是1~6的数字,相应的表格和图如下:
这两个概率分布其实很类似,都是有限的结果,每个结果都是相同概率的,这类概率分布就叫等概率。
我们可以用如下公式表示:
其中,n为有限结果的个数。
几何分布
还是以抛硬币为例。这次我们连续抛硬币,直到抛出第一次反面朝上就结束游戏,那我们会抛几次呢?这也是一个随机事件。
可能抛第一次就反面朝上,也可能没那么走运,要抛很多次才能反面朝上。从直觉来说,我们知道,在正常情况下,抛少量次数,就应该能抛到反面,需要抛出的次数越多,出现的概率越小。
那么第一次出现反面时抛硬币的次数的概率分布是怎样的呢?这就需要另一个概率分布了,即“几何分布”,这个分布就是用来解决“第一次”问题的。
第一次抛的概率是1/2,抛2次能抛到反面的概率是1/2x1/2=1/4,如此类推,出现的概率分布就呈现几何分布。
我们还是用表和图来说明:
二项式分布
连续抛硬币10次,正面朝上的总次数也是随机的,出现5个正面的概率肯定最大,那么其他次数的概率分布是怎么样的呢?这就涉及到二项式分布。
抛10次硬币,正面朝上5次的概率是最高的,正面朝上4次与6次、3次与7次、2次与8次、1次与9次、0次与10次的概率都是相等的,正面朝上次数从0次到5次,概率不断增加,出现5次朝上时的概率最大,从5次到10次,概率又逐渐下降,如表7所示:
表7 抛10次硬币出现n次正面朝上的概率
当然也可以用图8更清晰地展示:
图8 抛10次硬币出现n次正面朝上的概率
与几何分布回答“第一次”的问题不同,二项式分布回答的是不同次数概率分布情况的问题。二项式分布的公式如下:
其中,n为独立的伯努利试验次数,p为成功的概率,(1-p)为失败的概率,X为在n次伯努利试验中成功的次数。
所以你看,同样是抛硬币,有不同的概率。概率分布不是解决抛硬币这件事,而是关于不同条件下抛硬币问题的。
上面三种常见的分布都是离散型分布。什么是离散型分布?就是随机变量的值是有限的,我们只要知道每一种值的情况,对应的概率是多少就好了。
但有的事情,随机变量的值不是有限个数。比如体重,它们可能是82kg,也可能是82.1kg,还可以继续精确下去;比如时间,可以精确到小时、分钟、秒、毫秒。如果随机变量的取值不是离散型的,我就要用到连续型的概率分布了。
小贴士:
离散分布是统计中的一种数据分布类型,其特点在于随机变量的取值是有限或者可列无穷多个,即这些取值是可数的、非连续的。
指数分布
指数分布又被称为负指数分布,在概率论和统计学中用来描述泊松分布过程中事件之间的时间的概率分布,在很多科学计算中被广泛使用。指数分布的公式为:
如图9所示:
图9 指数分布图像
小贴士:
泊松分布:是用来描述小概率事件分布的方法。它是指随机事件A发生的概率很小,但试验次数n很大的分布情况。
泊松分布适用于描述那些在单位时间内平均发生率很低,但可能发生多次的事件,比如电话呼叫量、网站访问量、放射性衰变等。这些事件的特点是它们的发生是随机的、独立的,并且在一个固定时间间隔内发生的次数是可以计数的。
在这里,抛硬币的例子并不直接适用于泊松分布,因为泊松分布通常用于描述在固定时间或空间内,随机且独立发生的稀有事件的次数。而抛硬币是一个典型的伯努利试验,其结果(正面或反面)是二元的,且每次试验都是独立的,但不符合泊松分布描述的事件类型。
不过为了帮助理解泊松分布的概念,我们可以构造一个假设的情境:
假设有一家赌场,这家赌场提供一枚看似正常,但实际质地非常不均匀的硬币(因为有一面更重,所以导致抛出出正反面的概率并不相等。
我们假设这枚作弊硬币抛出正面的概率是一个很小的数,比如0.01,这意味着在大多数情况下,硬币都会反面朝上。此外,赌场还有一个自动抛硬币的机器,这台机器每分钟都会抛一次硬币。现在,我们来关注在一段时间内(比如一小时)出现正面朝上的次数。
在这样的情境下,我们就可以用泊松分布来描述抛出硬币正反面情况的时间分布概率。
小贴士:
泊松分布相对于前三个分布相对复杂,这里暂不做过多展开。