概率论基础:切比雪夫不等式、大数定理与中心极限定理详解
概率论基础:切比雪夫不等式、大数定理与中心极限定理详解
概率论中的切比雪夫不等式、大数定理和中心极限定理是统计学中非常重要的理论基础。本文将详细讲解这些概念,并通过具体的数学推导和实例分析,帮助读者深入理解这些概率论中的核心概念。
切比雪夫不等式 (Chebyshev's Inequality)
切比雪夫不等式有两个形式:
$$
P { |X - E(X)| \leq \varepsilon } \geq 1 - \frac{D(X)}{\varepsilon^2}
$$
$$
P { |X - E(X)| > \varepsilon } \leq \frac{D(X)}{\varepsilon^2}
$$
这两个不等式表明,对于一个随机变量X,其取值落在均值E(X)附近某个范围内的概率是有下界的。具体来说,取值落在均值E(X)的ε邻域内的概率至少为(1 - \frac{D(X)}{\varepsilon^2}),而超出这个范围的概率则不超过(\frac{D(X)}{\varepsilon^2})。
上图直观地展示了切比雪夫不等式的含义。对于服从一定分布的随机事件,其取值有很大概率落在一个或两个标准差之内。换言之,对于概率事件,如果取一个范围([- \varepsilon, + \varepsilon]),那么落入这个范围以内的概率为(1 - \frac{D(X)}{\varepsilon^2}),超过这个范围的概率是(\frac{D(X)}{\varepsilon^2})。
大数定理(Law of Large Numbers)
大数定理描述了当独立同分布的随机变量序列的样本容量趋于无穷大时,样本均值依概率收敛于总体均值的现象。这个定理可以从切比雪夫不等式出发进行理解,因为切比雪夫不等式成立的一个重要原因是同分布独立的概率事件的期望值总是固定且相等。
上图清楚地表明,随着样本数量的增加,噪音逐渐减少,样本值逐渐收敛到期望值。从经验和大量的实验结果统计表明:
$$
\overline{X_n} = \frac{1}{n}(X_1 + \cdots + X_n)
$$
当(n \rightarrow \infty)时,(\overline{X_n} \rightarrow \mu)。要满足这个结果的限制条件包括:
- (X_i)彼此是独立、同分布的
- (E(X_i) \approx \mu)
数学界主要给出了三种大数定理:
1. 弱大数定理(辛钦大数定理)
对于一列独立同分布的随机变量序列(X_1, X_2, \cdots, X_n),如果这些随机变量的期望(\mu = E(X_i))存在,则样本均值(\overline{X}n = \frac{1}{n} \sum{i=1}^n X_i)依概率收敛于总体均值(\mu),即:
$$
\lim_{n \to \infty} P\left(|\overline{X}_n - \mu| < \varepsilon\right) = 1 \quad \text{对于任意的 } \varepsilon > 0.
$$
这里的“依概率收敛”是指对于任意给定的正数(\varepsilon),随着(n)趋于无穷,样本均值与总体均值的差小于(\varepsilon)的概率趋于1。
2. 强大数定理
对于一列独立同分布的随机变量序列(X_1, X_2, \cdots, X_n),如果这些随机变量的期望(\mu = E(X_i))存在,则样本均值(\overline{X}n = \frac{1}{n} \sum{i=1}^n X_i)几乎处处收敛于总体均值(\mu),即:
$$
P\left(\lim_{n \to \infty} \overline{X}_n = \mu \right) = 1.
$$
这里的“几乎处处收敛”指的是几乎必然地收敛,即样本均值收敛到总体均值的事件发生的概率为1。这个收敛比弱大数定理中的依概率收敛更强。
3. 切比雪夫大数定理
对于一列两两独立的随机变量序列(X_1, X_2, \cdots, X_n),如果这些随机变量的期望(E(X_i) = \mu)存在,并且方差(D(X_i) = \text{Var}(X_i) \leq \sigma^2 < \infty)有统一的上界,则样本均值(\overline{X}_n = \frac{1}{n} \sum_{i=1}^n X_i)依概率收敛于总体均值(\mu)。即,对于任意(\varepsilon > 0),有:
$$
\lim_{n \to \infty} P\left(|\overline{X}_n - \mu| < \varepsilon \right) = 1.
$$
切比雪夫大数定理是弱大数定理的一种特殊情况,它不需要变量是完全独立的,但要求它们的方差有一个统一的上界。
总结
- 弱大数定理和切比雪夫大数定理都表述的是依概率收敛的情况。
- 强大数定理表述的是几乎处处收敛,收敛的强度更高。
中心极限定理
中心极限定理描述了当独立、同分布的随机变量序列的样本容量足够大时,样本均值的分布近似服从正态分布的现象。想象一下,将随机序列“拍扁”绘制在图表上,会发现它们呈现出明显的正态分布特点。
对于独立、同分布的随机序列:
$$
X_1 + X_2 + X_3 + \cdots + X_n = \sum_{i=1}^n X_i
$$
其标准化变量:
$$
Y = \frac{\sum X_i - E(\sum X_i)}{\sqrt{D(\sum X_i)}} = \frac{\sum X_i - n\mu}{\sqrt{n} \sigma}
$$
如果它们有相同的数学期望(E(X_i) = \mu),方差有界,且(\sigma^2 > 0)。那么这样的数列近似服从正态分布:
$$
\frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \sim N(n \mu, n \sigma^2)
$$
如果对上式子上下同时乘以(\frac{1}{n}),就可以令:
$$
\frac{ \frac{1}{n}\sum_{i=1}^n X_i - \mu}{\sigma / \sqrt{n}} \sim N( \mu, \sigma^2)
$$
即:
$$
\lim_{n \rightarrow \infty} P{ \frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \leq x } \approx \Phi(x) \sim N( \mu, \sigma^2)
$$
使得上式近似的变成一个标准正态分布。即,当(n)充分大的时候,可以用标准正态分布给出其近似分布。
另外,针对中心极限定理,通常会问一个范围内是多少概率的问题,所以通常会把这类问题转换为标准正态分布来求解 (N~( \mu = 0, \sigma = 1 )),正态分布的数学符号通常表示为(\Phi)。所以有:
$$
P{ a <\sum_{i=1}^n X_i < b } \approx \Phi(\frac{b - n\mu}{\sqrt{n} \sigma}) - \Phi(\frac{a - n\mu}{\sqrt{n} \sigma})
$$
这里要强调的是,计算结果只能近似,而不是相等。因为以前的人没有计算机,无法准确的得出实验结果。所以当结果呈现正态分布的时候,就会习惯性的把它跟标准正态分布进行比对,计算出的结果是个接近的值。但如果你用计算机严格的做实验进行模拟的话,还是会发现最终结果跟笔算的结果差异还是挺大的。
从另外一方面来说,对于概率问题,通常我们更关心事件是大概率事件还是小概率事件,而不是关心概率事件的实际概率是多少。所以这也从另外一个角度,解释了为什么在数学中很多情况下(不止概率计算中),其实只需要计算一个估值就可以了。
二项分布中心极限定理
这也算是一个比较常见的中心极限,相关的知识点你参考着我上面写的就行了,解题过程和中心极限定理是差不多的。
若(X \sim B(n, p))近似于(N(np, np(1-p)))
$$
P{ a < X < b } = \Phi(\frac{b - np}{\sqrt{np (1- p)}}) - \Phi(\frac{a - np}{\sqrt{np (1- p)}})
$$
做点题吧!
生产线上组装每件成品的时间 (X) 服从指数分布,其数学期望为 (1/5),假设各件产品的组装时间互不影响,试求组装100件成品需要15到20小时的概率,其中已知(\Phi(2.5) = 0.9938),(\Phi(1.25)=0.8944)。
解:,因为是指数分布,且已知期望(\mu = 1/5),则(\sigma = 1/5),且(n = 100)。然后带入公式:
$$
P{ 15 \leq Y \leq 20 } = \Phi(\frac{20 - n \mu}{\sqrt{n} \sigma}) - \Phi(\frac{15 - n \mu}{\sqrt{n} \sigma})
$$
然后我们把上述值代入公式中:
$$
=\Phi(\frac{20 - 100 * 1/5}{\sqrt{100} * 1/5}) - \Phi(\frac{15 - 100 * 1/5}{\sqrt{100} * 1/5}) = \Phi(0) - \Phi(-2.5)
$$
因为正态分布关于(X = 0)对称分布,所以有:
$$
=\Phi(0) - [1 - \Phi(2.5)] = \Phi(0) + \Phi(2.5) = 0.5 + 0.9938 - 1 = 0.4938
$$
如果是用笔头计算正则分布的分布函数,通常是比较难求解的。一般来说题目会给出可能用到的(\Phi(Y))值,不过如果是平时自己在做作业、或者工程中,可以用到《正则分布表》查表计算,有需要的话你可以去下载。