问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

正态分布(高斯分布)和中心极限定理(CLT)

创作时间:
作者:
@小白创作中心

正态分布(高斯分布)和中心极限定理(CLT)

引用
CSDN
1.
https://m.blog.csdn.net/weixin_43221845/article/details/142671441

正态分布(Normal Distribution)中心极限定理(Central Limit Theorem, CLT)是统计学中非常重要的概念,它们广泛应用于概率论、数据分析、机器学习等领域。以下将详细解释这两个概念及其关系。

1.正态分布(Normal Distribution)

a.定义

正态分布,也称为高斯分布,是一种非常常见的连续概率分布,用于描述许多自然现象和测量数据。它的概率密度函数(PDF)呈现典型的钟形曲线,具有对称性。

正态分布的数学表达式为:

f ( x ) = 1 σ 2 π exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sigma \sqrt{2 \pi}} \exp \left( -\frac{(x - \mu)^2}{2 \sigma^2} \right)f(x)=σ2π 1 exp(−2σ2(x−μ)2 )

其中:

  • x xx是随机变量。
  • μ \muμ是均值,表示分布的中心位置。
  • σ \sigmaσ是标准差,表示分布的离散程度或宽度。
  • σ 2 \sigma^2σ2是方差,方差越大,分布越宽。

b.正态分布的特性

正态分布有几个重要的特性:

  • 对称性:正态分布是关于其均值μ \muμ对称的。也就是说,分布的左右两边是镜像的。
  • 均值、中位数、众数相等:对于正态分布,均值μ \muμ、中位数和众数是相同的,且位于分布的中心。
  • 68-95-99.7 规则(68-95-99.7 Rule):在正态分布中,大约 68% 的数据落在均值μ \muμ的± 1 σ \pm 1\sigma±1σ范围内,95% 的数据落在± 2 σ \pm 2\sigma±2σ范围内,99.7% 的数据落在± 3 σ \pm 3\sigma±3σ范围内。

c. 图例

下图是一个班级的学生的 SAT 成绩。数据遵循正态分布,平均分数(M)为 1150,标准差(SD)为 150。

根据经验法则:

  • 大约 68% 的分数在 1000 到 1300 之间,分别是均值上下 1 个标准差。
  • 大约 95% 的分数在 850 到 1450 之间,分别是均值上下 2 个标准差。
  • 大约 99.7% 的分数在 700 到 1600 之间,分别是均值上下 3 个标准差。


图片来源:https://www.scribbr.com/statistics/normal-distribution/

d.正态分布的例子

正态分布广泛存在于自然现象和测量数据中。常见的例子包括:

  • 身高:人的身高在一个群体内通常呈现正态分布,平均身高在分布的中心,离均值越远的人数越少。
  • 考试成绩:在某些考试中,学生的成绩往往呈现正态分布,大部分学生的成绩集中在平均值附近。
  • 测量误差:科学实验中的测量误差通常服从正态分布,因为误差通常是由许多微小、独立的因素共同作用的结果。

e.标准正态分布

当正态分布的均值μ = 0 \mu = 0μ=0,标准差σ = 1 \sigma = 1σ=1时,它被称为标准正态分布,其概率密度函数为:

f ( x ) = 1 2 π exp ⁡ ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2 \pi}} \exp \left( -\frac{x^2}{2} \right)f(x)=2π 1 exp(−2x2 )

标准正态分布是所有正态分布的基准,通过标准化过程,任何正态分布都可以转化为标准正态分布。

标准化公式:

z = x − μ σ z = \frac{x - \mu}{\sigma}z=σx−μ

其中z zz是标准正态分布中的标准分数(z 分数),它表示某个值x xx在原分布中与均值μ \muμ的距离,用标准差σ \sigmaσ表示。

2.中心极限定理(Central Limit Theorem, CLT)

a.定义

中心极限定理是统计学中一个非常重要的定理,它表明:当从任意分布的总体中抽取足够多的独立随机样本时,这些样本的均值分布将近似服从正态分布,即使原始数据的分布并不是正态分布。

更正式地说,如果X 1 , X 2 , … , X n X_1, X_2, \dots, X_nX1 ,X2 ,…,Xn 是来自某个总体的独立同分布(i.i.d.)随机变量,且该总体的期望为E ( X ) = μ E(X) = \muE(X)=μ,方差为V a r ( X ) = σ 2 Var(X) = \sigma^2Var(X)=σ2,那么当样本数n nn足够大时,样本均值X ‾ n \overline{X}_nXn 的分布接近正态分布,具体表现为:

X ‾ n − μ σ / n → N ( 0 , 1 ) \frac{\overline{X}_n - \mu}{\sigma / \sqrt{n}} \to N(0, 1)σ/n Xn −μ →N(0,1)

其中:

  • X ‾ n = 1 n ∑ i = 1 n X i \overline{X}n = \frac{1}{n} \sum{i=1}^{n} X_iXn =n1 ∑i=1n Xi 是样本均值。
  • μ \muμ是总体的均值。
  • σ 2 \sigma^2σ2是总体的方差。
  • N ( 0 , 1 ) N(0, 1)N(0,1)表示标准正态分布。

b.中心极限定理的解释

中心极限定理的核心思想是:无论总体的分布是什么,当样本量足够大时,样本均值的分布总是接近正态分布。这意味着即使总体分布不是正态分布,样本均值仍然会趋于正态分布。这就是为什么正态分布在数据分析和统计推断中如此重要的原因。

c.中心极限定理的关键点

  • 样本量足够大:中心极限定理要求样本量n nn足够大,通常认为n ≥ 30 n \geq 30n≥30是一个经验标准。在某些情况下,样本量可以更小,如果总体分布相对对称。
  • 独立性:样本必须是独立的。中心极限定理要求抽样必须是独立的,即每个样本之间没有影响。
  • 相同分布:样本必须来自相同的分布(独立同分布),即每个样本都来自同一个总体。

d.中心极限定理的应用

中心极限定理的一个重要应用是它为统计推断提供了理论基础。特别是,它允许我们在处理未知分布的数据时使用正态分布来进行近似估计,从而推导出各种统计推断方法,如置信区间假设检验

  • 置信区间:在统计推断中,我们可以根据样本均值的分布来构建总体均值的置信区间。由于中心极限定理,样本均值服从正态分布,因此我们可以利用正态分布来构建置信区间。
  • 假设检验:中心极限定理也为假设检验提供了基础。在假设检验中,样本均值的分布可以近似为正态分布,因此可以使用正态分布来计算检验统计量。

e.例子

假设我们想要估计一个大城市的平均年收入,知道这个城市的收入分布并不是正态的(例如,可能是偏斜的)。然而,中心极限定理告诉我们,尽管总体分布不是正态的,只要我们从中抽取足够多的样本(例如 100 人的样本),那么这些样本的均值将近似服从正态分布。因此,我们可以利用正态分布的性质来对城市的平均收入进行推断。

3.正态分布与中心极限定理的关系

正态分布中心极限定理是密切相关的概念。正态分布是一种常见的分布,许多自然现象都近似服从正态分布。中心极限定理则是统计学的一个重要定理,它解释了为什么正态分布如此普遍。

通过中心极限定理,我们可以理解,即使总体分布不是正态分布,只要我们抽取足够多的样本,样本均值的分布仍然会趋向于正态分布。这一结论为我们使用正态分布进行统计推断提供了坚实的理论基础。

4. 总结

  • 正态分布:是一种常见的连续概率分布,呈钟形曲线,对称,广泛用于描述自然现象中的数据。
  • 中心极限定理:表明无论总体分布如何,当样本量足够大时,样本均值的分布总是接近正态分布。这为我们使用正态分布进行统计推断提供了理论支持。

正态分布与中心极限定理在数据分析和机器学习中都有重要应用,尤其是在进行统计推断、假设检验、构建置信区间等方面,是基础且常用的工具。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号