问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

泊松分布的通俗理解、推导与应用

创作时间:
作者:
@小白创作中心

泊松分布的通俗理解、推导与应用

引用
CSDN
1.
https://blog.csdn.net/qq_42692386/article/details/125916391

泊松分布是概率论与数理统计中一个重要的分布,广泛应用于描述单位时间内随机事件发生的次数。本文将通过一个馒头店的例子,直观地解释泊松分布的原理,并推导出其概率分布公式。同时,文章还将讨论泊松分布在实际中的应用条件和一些常见误解。

泊松分布的数学定义

首先来看一下教材中对于泊松分布的定义:

设所有随机变量X取值为0, 1, 2 … ,而取各个值的概率为 :

$$
P{X=k}= \frac{λ^k}{k!} e^{-\lambda},k=0,1,2,\ldots
$$

其中$λ > 0$是常数,则称X服从参数为$λ$的泊松分布,记为$X \sim P(λ)$。

易知$P{X=k}>0,k=0,1,2,\ldots$且有

$$
\sum_{k=0}^{\infty}P{X=k}=\sum_{k=0}^{\infty} \frac{λ^k}{k!} e^{-\lambda}=e^{-\lambda}\sum_{k=0}^{\infty} \frac{λ^k}{k!} =e^{-\lambda}\cdot{e^{\lambda}}=1
$$

泊松分布的理解与公式推导

先来看一个实际的例子。一家馒头店每天早上六点到十点营业,现在发愁应该准备多少个馒头才能充分供应?现在老板统计了一周每日卖出的馒头(为了方便计算和讲解,缩小了数据):

可以计算出每天卖出的馒头均值为5。但是如果每天准备5个馒头的话,从统计表来看,至少有两天的时间不够卖的。

现在老板尝试把营业时间抽象为一根线段,把这段时间用T来表示:

然后把周一的三个馒头按照销售时间放在线段上:

接下来把T均分为四个时间段,每一段时间为t:

此时,在每一个时间段t上,要不卖出了(一个)馒头,要不没有卖出,这样在每个时间段上卖出馒头就是一个0-1分布(伯努利分布),类似于抛硬币,要不是正面(卖出),要不是反面(没有卖出)。

而在整个营业时间段T内卖出3个馒头的概率,就和抛了4次硬币(4个时间段),其中3次正面(卖出3个)的概率一样了。这样的概率通过二项分布来计算就是:

$$
C_{4}^{3}p^3(1-p)^1
$$

但是,如果把周二的七个馒头放在线段上,分成四段就不够了:

从图中看,每个时间段t有卖出3个的,有卖出2个的,有卖出1个的,就不再是单纯的“卖出、没卖出”了。不能套用二项分布了。解决这个问题也很简单,把T分为20个时间段,那么每个时间段就又变为了抛硬币:

而更普遍的,为了保证在一个时间段内只会发生“卖出、没卖出”,干脆把时间切成n份,切的非常细,同时每天卖出的馒头数量假设为k个,则一天的营业时间T时刻内卖出k个馒头的概率为:

$$
P{X=k}=\lim_{n \to \infty} C_{n}^{k}p^k(1-p)^{n-k}
$$

在上面的假设下,问题已经被转为了二项分布。二项分布的期望为:

$$
E(x)=np=\mu
$$

那么每个时间段卖出馒头的概率p为:

$$
p=\frac{\mu}{n}
$$

将p代入到上述式子,就有:

$$
\lim_{n \to \infty} C_{n}^{k}p^k(1-p)^{n-k}=\lim_{n \to \infty} C_{n}^{k}(\frac{\mu}{n})^k(1-\frac{\mu}{n})^{n-k}
$$

计算一下这个极限:

$$
\lim_{n \to \infty} C_{n}^{k}(\frac{\mu}{n})^k(1-\frac{\mu}{n})^{n-k} =\lim_{n \to \infty}\frac{n!}{k!(n-k)!}\frac{\mu^k}{n^k}(1-\frac{\mu}{n})^{n-k} \
=\lim_{n \to \infty}\frac{n\cdot(n-1)\cdots(n-k+1)}{k!}\frac{\mu^k}{n^k}(1-\frac{\mu}{n})^{n-k} \
=\lim_{n \to \infty}\frac{\mu^k}{k!}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}(1-\frac{\mu}{n})^{-k}(1-\frac{\mu}{n})^{n}
$$

其中:

$$
\lim_{n \to \infty}\frac{n}{n}\cdot\frac{n-1}{n}\cdots\frac{n-k+1}{n}=1
$$

$$
\lim_{n \to \infty}(1-\frac{\mu}{n})^{-k}=1
$$

$$
\lim_{n \to \infty}(1-\frac{\mu}{n})^{n}=\lim_{n \to \infty}e^{nln(1-\frac{\mu}{n})}=\lim_{n \to \infty}e^{n*(-\frac{\mu}{n})}=e^{-\mu}
$$

所以在T时间内卖出k个馒头的概率为:

$$
P{X=k}=\lim_{n \to \infty} C_{n}^{k}p^k(1-p)^{n-k}=\frac{\mu^k}{k!}e^{-\mu}
$$

现在还有一个问题,$\mu$是总体均值,是未知数,所以用刚刚计算了样本均值来近似总体均值,用$\lambda$来代表这个值

$$
P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda}
$$

这就是教科书中的泊松分布的概率分布,实际应用中$\lambda$一般都是时间段T内的随机变量的均值,可以通过测量或者历史数据得出。

从上述的推导过程中可以知道泊松分布是将整体无限切分转化为二项分布,这样就解释了泊松分布为何是一个离散型分布,同时也解释了为什么二项分布能在n比较大,p比较小的情况下近似于泊松分布。

泊松分布的实际应用

泊松分布在实际中的应用很多,例如某一地区一段时间内的车祸发生数,医院一天的急诊病人数等,还可以用来推测产品的不合格率,确定库存数量等。

应用泊松分布需要满足如下条件:

  1. 一个事件的发生不影响其它事件的发生,即事件独立发生。举个栗子:地震发生的时候主震通常会引起余震,所以预测地震次数为无法使用泊松分布,但预测一段时间主震的次数可以应用泊松分布
  2. 事件的发生率是相同的,不能有些区间内发生率高一些而另一些区间低一些;例如我们上面的卖馒头的例子。早上六点到十点可大致看作区间内馒头卖出的概率相同,但是下午卖出馒头的概率和上午可能就不相同了

再回到上面我们的例子,买馒头的顾客是独立的,不会互相影响,且营业时间内买馒头的概率恒定,所以应用泊松分布的概率公式可以求出每天卖出馒头的数量的概率,$\lambda$取值为样本均值5:

$$
P{X=k}=\frac{5^k}{k!}e^{-5}
$$

具体的概率可以通过泊松分布表查询,也可以按一下计算器。当备货的馒头数为k时,够卖的概率就是将小于等于k的概率相加

$$
P{X\leq k}
$$

可以看到如果备货的馒头数为8时,有93%的概率是够卖的,备货的馒头数为7时,有86%的概率是够卖的,而备货的馒头数为5时,有61%的概率是够卖的,这就是确定库存数量的实际案例。

泊松分布的一些其他解释

  1. 泊松分布是只适用于小概率事件吗?

尽管泊松分布常用于对小概率事件进行建模,但$\lambda$可以是任意数字。它并不总是很小。只是随着$\lambda$变大,图形看起来越来越像正态分布。

泊松分布的概率密度分布如下:

  1. 二项分布近似于泊松分布(泊松定理)

在实验次数n比较多的情况下,二项分布的概率计算$C_{n}^{k}p^k(1-p)^{n-k}$比较麻烦,这时就可以用泊松分布来近似处理二项分布.

具体原理也就是由上述的公式的推导过程,可知泊松分布是极限下的二项分布,所以满足n比较大,p比较小的情况下(一般具体要求$n \geq 20$且$p \leq 0.05$)二项分布可以近似为泊松分布,并且泊松分布的参数值$\lambda=np$

即:在n重伯努利实验中,记事件A在一次伯努利实验中发生的概率为$p_n$,且$np_n=\lambda$则 在n趋近与无穷大时,有

$$
\lim_{n \to \infty} C_{n}^{k}{p_n}^k(1-{p_n})^{n-k}=\frac{λ^k}{k!} e^{-\lambda}
$$

参考文章:https://blog.csdn.net/ccnt_2012/article/details/81114920

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号