问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

概率论基础 —— 10. 切比雪夫不等式、大数定理、中心极限定理

创作时间:
作者:
@小白创作中心

概率论基础 —— 10. 切比雪夫不等式、大数定理、中心极限定理

引用
CSDN
1.
https://blog.csdn.net/poisonchry/article/details/119109039

概率论中的切比雪夫不等式、大数定理和中心极限定理是统计学和概率论中的核心概念。本文将从基本定义出发,深入探讨这些定理的内涵及其在实际问题中的应用。

尽管统计学本身是门科学,我们也在纯数学的角度上研究了很多概率的性质。但是也不能否认统计学中依然有相当多经验总结。而且相当多的经验是行之有效的。在《概率论与数理统计》这本教材中,也列举了一些经验性的东西,因此我们也需要来学习一下。

切比雪夫不等式 (Chebyshev's Inequality)

我们来看一看切比雪夫不等式,有两个:

P { ∣ X − E ( X ) ∣ ≤ ε } ≥ 1 − D ( X ) ε 2 P { |X - E(X)| \leq \varepsilon } \geq 1 - \frac{D(X)}{\varepsilon ^ 2}P{∣X−E(X)∣≤ε}≥1−ε2D(X)

P { ∣ X − E ( X ) ∣ > ε } ≤ D ( X ) ε 2 P { |X - E(X)| > \varepsilon } \leq \frac{D(X)}{\varepsilon ^ 2}P{∣X−E(X)∣>ε}≤ε2D(X)

那么,它们表达什么含义呢?

对于随机事件,如果它服从一定的分布,就会发现随机事件会以极大的概率落入一个或者两个标准差之内。换言之,对于概率事件,如果取一个范围[ − ε , + ε ] [- \varepsilon, + \varepsilon][−ε,+ε],那么落入这个范围以内的概率为1 − D ( X ) ε 2 1 - \frac{D(X)}{\varepsilon ^ 2}1−ε2D(X) ,超过这个范围的概率是D ( X ) ε 2 \frac{D(X)}{\varepsilon ^ 2}ε2D(X) 。

大数定理(Law of Large Numbers)

从切比雪夫不等式出发,我们发现之所以切比雪夫不等式成立,其中一个很重要的原因就是因为同分布独立的概率事件,其期望值总是固定且相等。同样的,我们发现当对随机事件大量实验后,会发现随机事件A随着实验次数增大时总会呈现出某种稳定性,即朝着某个常数(通常即期望)收敛,而这就是所谓的大数定理。

上图清楚的表明,随着样本的增加,噪音逐渐减少,其样本值逐渐收敛到期望值。所以,从经验和大量的实验结果统计表明:

X n ‾ = 1 n ( X 1 + ⋯ + X n ) \overline{X_n} = \frac{1}{n}(X_1 + \cdots + X_n)Xn =n1 (X1 +⋯+Xn )

当n → ∞ n \rightarrow \inftyn→∞时,X n ‾ → μ \overline{X_n} \rightarrow \muXn →μ。要满足这个结果的限制条件,就有如下几条:

  • X i X_iXi 彼此是独立、同分布的
  • E ( X i ) ≈ μ E(X_i) \approx \muE(Xi )≈μ

那么关于如何描述大数定理,目前数学界主要给出了三种

1.弱大数定理(辛钦大数定理)

对于一列独立同分布的随机变量序列X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_nX1 ,X2 ,⋯,Xn ,如果这些随机变量的期望μ = E ( X i ) \mu = E(X_i)μ=E(Xi )存在,则样本均值X ‾ n = 1 n ∑ i = 1 n X i \overline{X}n = \frac{1}{n} \sum{i=1}^n X_iXn =n1 ∑i=1n Xi 依概率收敛于总体均值μ \muμ,即:

lim ⁡ n → ∞ P ( ∣ X ‾ n − μ ∣ < ε ) = 1 对于任意的 ε > 0. \lim_{n \to \infty} P\left(|\overline{X}_n - \mu| < \varepsilon\right) = 1 \quad \text{对于任意的 } \varepsilon > 0.n→∞lim P(∣Xn −μ∣<ε)=1对于任意的 ε>0.

这是弱收敛(依概率收敛)的概念。这里的“依概率收敛”是指对于任意给定的正数ε \varepsilonε,随着n nn趋于无穷,样本均值与总体均值的差小于ε \varepsilonε的概率趋于 1。

2.强大数定理

对于一列独立同分布的随机变量序列X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_nX1 ,X2 ,⋯,Xn ,如果这些随机变量的期望μ = E ( X i ) \mu = E(X_i)μ=E(Xi )存在,则样本均值X ‾ n = 1 n ∑ i = 1 n X i \overline{X}n = \frac{1}{n} \sum{i=1}^n X_iXn =n1 ∑i=1n Xi 几乎处处收敛于总体均值μ \muμ,即:

P ( lim ⁡ n → ∞ X ‾ n = μ ) = 1. P\left(\lim_{n \to \infty} \overline{X}_n = \mu \right) = 1.P(n→∞lim Xn =μ)=1.

这里的“几乎处处收敛”指的是几乎必然地收敛,即样本均值收敛到总体均值的事件发生的概率为 1。这个收敛比弱大数定理中的依概率收敛更强。

3.切比雪夫大数定理

对于一列两两独立的随机变量序列X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_nX1 ,X2 ,⋯,Xn ,如果这些随机变量的期望E ( X i ) = μ E(X_i) = \muE(Xi )=μ存在,并且方差D ( X i ) = Var ( X i ) ≤ σ 2 < ∞ D(X_i) = \text{Var}(X_i) \leq \sigma^2 < \inftyD(Xi )=Var(Xi )≤σ2<∞有统一的上界,则样本均值X ‾ n = 1 n ∑ i = 1 n X i \overline{X}_n = \frac{1}{n} \sum_{i=1}^n X_iXn =n1 ∑i=1n Xi 依概率收敛于总体均值μ \muμ。即,对于任意ε > 0 \varepsilon > 0ε>0,有:

lim ⁡ n → ∞ P ( ∣ X ‾ n − μ ∣ < ε ) = 1. \lim_{n \to \infty} P\left(|\overline{X}_n - \mu| < \varepsilon \right) = 1.n→∞lim P(∣Xn −μ∣<ε)=1.

切比雪夫大数定理是弱大数定理的一种特殊情况,它不需要变量是完全独立的,但要求它们的方差有一个统一的上界。

总结

  • 弱大数定理切比雪夫大数定理都表述的是依概率收敛的情况。
  • 强大数定理表述的是几乎处处收敛,收敛的强度更高。

中心极限定理

想象一下,我们把随机序列一巴掌拍扁,把事件绘制在图表上会有什么效果。没错,基本上随机事件会呈现比较明显的正态分布的特点。

所以,对于独立、同分布的随机序列

X 1 + X 2 + X 3 + ⋯ + X n = ∑ i = 1 n X i X_1 + X_2 + X_3 + \cdots + X_n = \sum_{i=1}^n X_iX1 +X2 +X3 +⋯+Xn =i=1∑n Xi

其标准化变量:

Y = ∑ X i − E ( ∑ X i ) D ( ∑ X i ) = ∑ X i − n μ n σ Y = \frac{\sum X_i - E(\sum X_i)}{\sqrt{D(\sum X_i)}} = \frac{\sum X_i - n\mu}{\sqrt{n} \sigma}Y=D(∑Xi ) ∑Xi −E(∑Xi ) =n σ∑Xi −nμ

如果他们有相同的数学期望E ( X i ) = μ E(X_i) = \muE(Xi )=μ,方差有界,且σ 2 > 0 \sigma^2 > 0σ2>0。那么这样的数列近似服从正态分布:

∑ i = 1 n X i − n μ n σ ∼ N ( n μ , n σ 2 ) \frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \sim N(n \mu, n \sigma^2)n σ∑i=1n Xi −nμ ∼N(nμ,nσ2)

如果对上式子上下同时1 n \frac{1}{n}n1 ,就可以令

1 n ∑ i = 1 n X i − μ σ / n ∼ N ( μ , σ 2 ) \frac{ \frac{1}{n}\sum_{i=1}^n X_i - \mu}{\sigma / \sqrt{n}} \sim N( \mu, \sigma^2)σ/n n1 ∑i=1n Xi −μ ∼N(μ,σ2)

即:

lim ⁡ n → ∞ P { ∑ i = 1 n X i − n μ n σ ≤ x } ≈ Φ ( x ) ∼ N ( μ , σ 2 ) \lim_{n \rightarrow \infty} P{ \frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \leq x } \approx \Phi(x) \sim N( \mu, \sigma^2)n→∞lim P{n σ∑i=1n Xi −nμ ≤x}≈Φ(x)∼N(μ,σ2)

使得上式近似的变成一个标准正态分布。即,当n充分大的时候,我们可以用标准正态分布给出其近似分布

另外,针对中心极限定理,一般通常情况下会问一个范围内是多少概率的问题,所以通常会把这类问题转换为标准正态分布来求解 N~( μ = 0 (\mu = 0(μ=0,σ = 1 ) \sigma = 1)σ=1),正态分布的数学符号通常表示为Φ \PhiΦ。

所以有:

P { a < ∑ i = 1 n X i < b } ≈ Φ ( b − n μ n σ ) − Φ ( a − n μ n σ ) P{ a <\sum_{i=1}^n X_i < b } \approx \Phi(\frac{b - n\mu}{\sqrt{n} \sigma}) - \Phi(\frac{a - n\mu}{\sqrt{n} \sigma})P{a<i=1∑n Xi <b}≈Φ(n σb−nμ )−Φ(n σa−nμ )

这里要强调的是,计算结果只能近似,而不是相等。因为以前的人没有计算机,无法准确的得出实验结果。所以当结果呈现正态分布的时候,就会习惯性的把它跟标准正态分布进行比对,计算出的结果是个接近的值。但如果你用计算机严格的做实验进行模拟的话,还是会发现最终结果跟笔算的结果差异还是挺大的。

从另外一方面来说,对于概率问题,通常我们更关心事件是大概率事件还是小概率事件,而不是关心概率事件的实际概率是多少。所以这也从另外一个角度,解释了为什么在数学中很多情况下(不止概率计算中),其实只需要计算一个估值就可以了。

二项分布中心极限定理

这也算是一个比较常见的中心极限,相关的知识点你参考着我上面写的就行了,解题过程和中心极限定理是差不多的。

若X ∼ B ( n , p ) X \sim B(n, p)X∼B(n,p)近似于N ( n p , n p ( 1 − p ) ) N(np, np(1-p))N(np,np(1−p))

P { a < X < b } = Φ ( b − n p n p ( 1 − p ) ) − Φ ( a − n p n p ( 1 − p ) ) P{ a < X < b } = \Phi(\frac{b - np}{\sqrt{np (1- p)}}) - \Phi(\frac{a - np}{\sqrt{np (1- p)}})P{a<X<b}=Φ(np(1−p) b−np )−Φ(np(1−p) a−np )

做点题吧!

生产线上组装每件成品的时间 X 服从指数分布,其数学期望为 1/5 ,假设各件产品的组 装 时 间 互 不 影 响 , 试 求 组 装 100 件 成 品 需 要 15 到 20 小 时 的 概 率 ,其中已知Φ ( 2.5 ) = 0.9938 \Phi(2.5) = 0.9938Φ(2.5)=0.9938,Φ ( 1.25 ) = 0.8944 \Phi(1.25)=0.8944Φ(1.25)=0.8944。

解:,因为是指数分布,且已知期望μ = 1 / 5 \mu = 1/5μ=1/5,则σ = 1 / 5 \sigma = 1/5σ=1/5,且n = 100 n=100n=100。然后带入公式:

P { 15 ≤ Y ≤ 20 } = Φ ( 20 − n μ n σ ) − Φ ( 15 − n μ n σ ) P{ 15 \leq Y \leq 20 } = \Phi(\frac{20 - n \mu}{\sqrt{n} \sigma}) - \Phi(\frac{15 - n \mu}{\sqrt{n} \sigma})P{15≤Y≤20}=Φ(n σ20−nμ )−Φ(n σ15−nμ )

然后我们把上述值代入公式中

= Φ ( 20 − 100 ∗ 1 / 5 100 ∗ 1 / 5 ) − Φ ( 15 − 100 ∗ 1 / 5 100 ∗ 1 / 5 ) = Φ ( 0 ) − Φ ( − 2.5 ) =\Phi(\frac{20 - 100 * 1/5}{\sqrt{100} * 1/5}) - \Phi(\frac{15 - 100 * 1/5}{\sqrt{100} * 1/5}) = \Phi(0) - \Phi(-2.5)=Φ(100 ∗1/520−100∗1/5 )−Φ(100 ∗1/515−100∗1/5 )=Φ(0)−Φ(−2.5)

因为正态分布关于X = 0 对称分布,所以有:

= Φ ( 0 ) − [ 1 − Φ ( 2.5 ) ] = Φ ( 0 ) + Φ ( 2.5 ) = 0.5 + 0.9938 − 1 = 0.4938 =\Phi(0) - [1 - \Phi(2.5)] = \Phi(0) + \Phi(2.5) = 0.5 + 0.9938 -1 = 0.4938=Φ(0)−[1−Φ(2.5)]=Φ(0)+Φ(2.5)=0.5+0.9938−1=0.4938

如果是用笔头计算正则分布的分布函数,通常是比较难求解的。一般来说题目会给出可能用到的Φ ( Y ) \Phi(Y)Φ(Y)值,不过如果是平时自己在做作业、或者工程中,可以用到《正则分布表》查表计算,有需要的话你可以去下载。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号