问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

通俗讲解二项分布与泊松分布区别

创作时间:
作者:
@小白创作中心

通俗讲解二项分布与泊松分布区别

引用
1
来源
1.
http://www.360doc.com/content/25/0331/19/27880450_1150275389.shtml

泊松分布和二项分布是数据科学和统计学中常用的两种离散概率分布。虽然它们都涉及计算发生率或成功率,但它们在基本假设和使用情况上有所不同。本文将通过实例详细讲解这两种分布的区别。

上一节讲了如何从二项式分布推导出二项式分布,说明了两者之间的联系,从哲学的角度来讲,还要在此基础上分析两者之间的区别,本文用实例来讲清楚个问题。

泊松分布二项分布是数据科学和统计学中使用的两种最常用的离散概率分布。虽然两者都涉及计算发生率或成功率,但它们在基本假设和使用情况上有所不同。

如果你和我一样,有时可能会犹豫不决是使用泊松分布还是二项分布来分析问题--尤其是如果你最近没有使用过它们。

为了澄清这个问题,让我们来看看每种分布的特点、何时使用它们以及如何区分这两种分布。

1. 泊松分布:足球示例

在深入探讨技术问题之前,让我举个泊松分布的相关例子。

泊松分布

足球比赛中的黄牌(泊松分布)

泊松分布特别适用于模拟事件随机、独立、罕见地发生的情况。足球比赛中的黄牌数就是一个很好的例子。

模拟足球比赛中黄牌的数量:

  • 事件:向一名球员出示黄牌。
  • 许多可能的机会:一场足球比赛有 90 分钟的比赛时间。每一分钟(或比赛顺序)都代表一次独立的犯规或违规机会,可能导致一张黄牌。
  • 独立性:一名球员在第 15 分钟吃到黄牌,并不影响另一名球员在第 50 分钟吃到黄牌的可能性。判罚依据的是个人犯规。
  • 罕见事件:黄牌并非每分钟都会出现。在一场比赛中,黄牌相对较少。
  • 固定间隔:90 分钟的比赛是一个固定的时间段。

应用泊松分布:

如果每场比赛的平均黄牌数 (λ) 是 2,那么就可以用泊松公式计算出一场比赛中出现 3 张黄牌的概率。

既然我们已经提前举出了例子,那就来谈谈技术问题吧!

泊松分布

泊松分布建模的是在时间、空间或其他维度的固定时间间隔内发生的事件数量,其中单一事件的概率非常小,但可能的机会的数量却很大

分布

泊松分布的条件:

  • 事件独立发生:每个事件都独立于其他事件。一个事件的发生不会影响或依赖于另一个事件的发生。
  • 事件的发生率是恒定的:在整个试验过程中,每个间隔的平均事件数保持不变。
  • 两个或两个以上的事件不能同时发生:在很小的间隔内,假设最多只能发生一个事件。
  • 事件发生的机会(n):泊松假设事件发生的机会可能是无限的(或非常多的)。

与足球比赛相比:

  • 事件独立发生:一名球员在第 15 分钟吃到黄牌,并不会影响另一名球员在第 50 分钟吃到黄牌的可能性。决定是根据个人犯规做出的。
  • 事件发生率是恒定的:假设平均每场比赛发出 2 张黄牌。无论比赛是在前 45 分钟还是后 45 分钟,这一平均比率都是**恒定的。
  • 两个或两个以上的事件不能同时发生:如果一名球员吃到黄牌,另一名球员不可能同时吃到黄牌。如果需要一名以上球员参与大面积犯规,裁判员会先向一名球员出示黄牌,然后再向另一名球员出示黄牌。
  • 事件发生的机会:整场比赛为球员提供了*多独立的黄牌机会(每分钟或每场比赛)。

看看它们是如何排列的!从非纯数学的角度来思考这些分布会容易得多!

泊松分布的关键特征

对于泊松分布,以下是您真正需要考虑的所有关键特征(我说得很仔细):

  • 参数:(每个区间的平均事件数)
  • 预期
  • 方差
  • 泊松概率质量函数
    :事件数量 λ:事件平均速率

问题:为什么均值和方差相等?

泊松分布有一个独特的性质,即均值和方差都等于。这是由于该分布是如何从事件的独立性和恒定速率假设中推导出来的。

仅从解释中很难真正理解为什么它们会相等,所以请耐心听我说!这将是展示一大堆方程式来解释为什么泊松分布的均值和方差是相等的!

期望值的计算:

请记住,随机变量的均值就是它的期望值。对于离散型随机变量,期望值的计算公式为:

离散型随机变量的期望

对于泊松分布,我们可以使用 pmf 来求得:

泊松分布的期望方程

有了这个,我们可以做一些阶乘代换、泰勒级数展开,得到:

计算方差:方差(X)

请记住,对于离散型随机变量,方差的计算公式为:

离散型随机变量的方差

要计算我们知道:

泊松分布的方差方程

我们可以使用与期望相同的方法来求解方差,得到。因此,我们可以得到:

好的!现在你知道为什么泊松数的期望值和方差是相等的了吧。

回到我们的例子

既然我们现在已经知道了概率质量函数、期望值和方差......那么我们该如何求解最初的问题陈述呢?如果每场比赛的平均黄牌数(λ)为 2,请计算一场比赛中出现 3 张黄牌的概率。

我总是先将其改写成泊松符号:

我们的case是

然后,我们就可以利用 PMF 方程来求解一场比赛中出现 3 张黄牌的概率。

这近似于 ~18.04% 。

所以......现在我们知道了!如果每场比赛的平均黄牌数为 2 张,那么恰好得到 3 张黄牌的概率约为 18.04%!

import numpy as np  
import matplotlib.pyplot as plt  
from scipy.stats import poisson  

lambda_value = 2   
k = 3   
poisson_prob = poisson.pmf(k, lambda_value)  

x_poisson = np.arange(0, 10)   
y_poisson = poisson.pmf(x_poisson, lambda_value)  

print(poisson_prob)  # 输出结果约为 0.18044704431548358

2.二项分布:点球

现在让我们换一个场景--足球点球大战。

二项分布

点球大战中成功的点球数(二项分布)

二项分布非常适合模拟点球决胜中成功的点球数,尤其是当点球总数固定时。比方说,你正在和朋友们踢足球,你想模拟在10次罚球中,有多少次点球会导致进球。

为何符合二项分布:

二项分布由两个参数定义:

  • 固定的试验次数(n):在本例中,n=10(罚球总数)。
  • 单次试验的成功概率(p)恒定:每次踢球的成功概率(p)都是一样的。你可能对此有一些疑问,比如如果球员累了或在斯托克寒冷的雨夜踢球怎么办?你说得对,这些条件可能会违反这一规定)
  • 独立性:一次罚球的结果(进球或失球)不影响下一次罚球的结果。
  • 每次试验只有两种可能的结果:每次踢球的结果要么是进球(成功),要么是不进球(失败)。

应用二项分布:

如果成功概率为 0.5,则可以使用二项式公式计算一场比赛进 7 球的概率。

二项分布

正如你在罚球示例中注意到的,二项分布模拟的是固定数量的独立**伯努利试验中的成功次数:

  • 固定的试验次数 ()
  • 固定的成功概率 ()
  • 独立:一次试验的结果不得影响其他任何试验的结果。每次试验都是独立的。
  • 两种可能的结果:成功或失败(1 或 0)。

n.png

关键特征:

  • 参数:(试验次数),(成功概率)。
  • 预期
  • 方差
  • 二项式的概率质量函数
    = 成功次数,= 试验次数

二项式系数

因此可以说,在计算固定试验次数的成功时,就会用到二项分布。

3.如果条件被违反了怎么办?

但是,如果违反了条件,二项分布可能就不适用了。例如,如果我们更广泛地使用惩罚的例子

  1. 如果 p 在两次试验之间发生了变化(例如,球员感到疲劳或受到压力,从而降低了成功率)。
  2. 如果试验不是独立的(例如,踢丢一球打击了球员的士气,降低了他们下一次进球的机会)。
  3. 如果试验次数(n)不固定或定义不明确。(例如,锦标赛中的射门可能要踢 10 次、20 次、30 次......)。

不过,如果您在家里和朋友一起进行固定次数的踢球,则可能不会违反这些条件。

10.png

from scipy.stats import binom  

n = 10   
p = 0.5   
k_binom = 7   
binom_prob = binom.pmf(k_binom, n, p)  

x_binom = np.arange(0, n + 1)   
y_binom = binom.pmf(x_binom, n, p)  

print(binom_prob)  # 输出结果约为 0.11718749999999999

4. Poisson vs. Binomial:有什么区别?

正如你所看到的,当我们有固定的试验次数时,就会使用二项分布。在决定使用哪种分布时,这是一个非常重要的区别。不过,也有一种边缘情况(当试验次数非常多而成功概率非常小时)。

5. 用泊松近似二项分布

在特定条件下,泊松分布可以近似于二项分布

  • (试验次数)非常大。
  • (成功概率)非常小。
  • 乘积(平均值)保持不变。

为什么需要这些条件?

泊松分布模拟的是罕见的事件,因此小的可确保每个人成功的可能性都不大。如果较大,这些罕见事件就有很多机会发生。这种设置模拟了泊松过程。

想象一下我们的足球示例

假设由于某种原因,两队都需要罚 100 个球。但地上都是雪,很难踢到球。这样,任何一次踢球得分的概率就变成了 2% 左右(p = 0.02)。令人惊讶的是,泊松分布可以很好地逼近二项分布。

这种情况下的二项分布可以用 λ = n⋅ p = 2 的泊松分布很好地近似。

简要说明

在决定使用泊松分布还是二项分布时,请自问一下:

有固定的试验吗?

  • 有 → 二项分布。
  • 否 → 泊松分布。

多次试验成功的概率小吗?

  • 是 → 把泊松看作近似值。

了解了这些区别,你就会有信心为遇到的任何问题选择正确的分布。祝您阅读愉快。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号