问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

正态分布——“牛而B之”

创作时间:
作者:
@小白创作中心

正态分布——“牛而B之”

引用
1
来源
1.
https://www.cnblogs.com/Gaowaly/p/18353774

正态分布,又称常态分布或正常分布,是一种在自然和社会科学中广泛存在的连续概率分布。它以其独特的钟形曲线和数学性质,在统计学、概率论以及各种实证研究中占据着核心地位。本文将从多个维度深入探讨正态分布的定义、特点、历史背景及其在现实生活中的应用。

1. 什么是正态分布?

正态分布,也被称为常态分布或正常分布,是一种在自然和社会科学中广泛存在的连续概率分布。其概率密度函数呈现出典型的钟形曲线,因此也被称为钟形曲线。正态分布的数学表达式为:

$$
f(x) = \frac{1}{\sqrt{2\pi}\delta}e^{-\frac{(x-u)^2}{2\delta^2}}
$$

其中,$u$ 表示分布的均值,$\delta$ 表示标准差。

正态分布之所以如此重要,是因为它能够很好地描述许多自然现象和社会现象的分布特征。例如,人群的身高、体重、考试成绩等指标通常都服从正态分布。这种分布的特点是中间值出现的概率最大,极端值出现的概率最小,呈现出“中间高、两边低”的特征。

1.1 名气大

为什么正态分布如此出名?这与其广泛的应用场景密切相关。正态分布能够描述几乎所有常见的事物和现象,如正常人群的身高、体重、考试成绩、家庭收入等。这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。

这种分布特征与“同质性”和“变异”的概念密切相关。当我们研究的对象具有同质性(比如都是成年的中国男子)时,其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。

1.2 正态分布从哪儿来? 谁发明的?

正态分布的历史可以追溯到18世纪。最初,它是由法国数学家棣莫弗在研究二项分布时发现的。后来,拉普拉斯、高斯等数学家对这一分布进行了深入研究。高斯在1809年提出了最小二乘法,进一步推动了正态分布在误差分析中的应用。因此,正态分布也被称为高斯分布。

正态分布最初是从二项分布发展而来的,二项分布的概率质量函数(pmf)在样本量足够大时,确实很像正态分布。后来,这一发现被推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布。

1.3 正态分布是概率论,还是统计?

正态分布在概率论和统计学中都占有重要地位。在概率论中,正态分布是一种描述随机变量概率分布的数学模型;而在统计学中,正态分布则更多地用于描述观测数据的分布特征,帮助我们理解数据的规律性和不确定性。

2. 正态分布的基本概念

2.1 正态分布

正态分布的概率密度函数为:

$$
f(x) = \frac{1}{\sqrt{2\pi}\delta}e^{-\frac{(x-u)^2}{2\delta^2}}
$$

其中,$u$ 表示分布的均值,$\delta$ 表示标准差。均值决定了分布的位置,标准差决定了分布的形状。标准差越小,分布越集中;标准差越大,分布越分散。

2.2 标准正态分布

当正态分布的均值 $u=0$,标准差 $\delta=1$ 时,该分布被称为标准正态分布。标准正态分布的概率密度函数更为简洁:

$$
f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
$$

标准正态分布在统计推断中具有重要作用,许多统计检验和置信区间的计算都基于标准正态分布。

2.3 正态分布曲线和置信区间

正态分布具有三个重要的置信区间:

  • 第1置信区间:$[-\delta, \delta]$ 之间,包含约68.3%的数据
  • 第2置信区间:$[-2\delta, 2\delta]$ 之间,包含约95.4%的数据
  • 第3置信区间:$[-3\delta, 3\delta]$ 之间,包含约99.7%的数据

2.4 正态分布的特点

  • 平均值就是期望:正态分布的均值($u$)等于其期望值。
  • 极端值很少:在 $[-3\delta, 3\delta]$ 之外的数很少,约占0.3%。
  • 标准差与曲线形状:标准差小,则数据集中,钟形曲线瘦高;标准差大,则数据分散,钟形曲线扁平。

2.5 正态分布的推论

  • 正态分布变量的和:两个独立的正态分布变量之和仍然是正态分布。
  • 期望和标准差的加法:两个独立正态分布变量之和的期望等于两个分布期望之和,标准差等于两个分布标准差之和的平方根。

3. 哪些情况符合正态分布?

3.1 正态分布的适用范围

正态分布在现实生活中具有广泛的适用性。例如,世界卫生组织(WHO)统计的儿童身高体重数据就遵循正态分布的三个区间。在实际应用中,通常关注 $[-2\delta, 2\delta]$ 之间的数据,因为这个区间包含了约95.4%的数据。

3.2 适合正态分布的情况

一般来说,当满足以下条件时,数据更可能服从正态分布:

  • 同一类型的变量试验:每次试验之间是独立的,互不影响。
  • 影响因素独立且较多:各个随机元素对结果的影响是独立的,且影响因素较多。
  • 加法原理:各个因素对结果的影响是通过加法原理求得的。

例如,人的身高受到遗传、环境、饮食、锻炼等多种因素的影响,这些因素独立且相互叠加,因此身高数据通常服从正态分布。

3.3 不适合正态分布的情况

  • 随机元素相互影响:如果随机元素之间存在较强的相关性,可能不适合用正态分布描述。
  • 乘法原理关系:如果某些因素的作用是通过乘法原理实现的,可能不适合正态分布。
  • 影响因素较少:如果影响因素过于单一,也可能不符合正态分布的特征。

4. 为什么会出现正态分布?

正态分布的出现可以归因于以下几个重要理论:

  • 极大似然估计:在参数估计中,极大似然估计方法倾向于选择使观测数据出现概率最大的参数值,这与正态分布的性质密切相关。
  • 中心极限定理:这是正态分布出现的核心理论基础。中心极限定理指出,当独立同分布的随机变量数量足够多时,它们的和的分布将趋近于正态分布,无论这些随机变量原本的分布如何。
  • 最小二乘法:高斯提出的最小二乘法在误差分析中广泛应用,而最小二乘法的理论基础正是正态分布。

样本量对正态分布的近似程度有重要影响。一般来说,样本量超过30时,可以认为数据近似服从正态分布。

5. 具体例题举例

在实际应用中,正态分布的计算往往需要借助标准正态分布表(Z表)。通过将原始数据转换为标准正态分布,可以方便地查找特定区间内的概率值。

6. 相关分布

正态分布与其他一些重要分布有密切关系,如:

  • 卡方分布($\chi^2$分布)
  • F分布
  • t分布

这些分布都是在统计推断中经常用到的。

7. 一些有趣的研究

有趣的是,当不同群体的正态分布进行叠加时,结果仍然是正态分布,但标准差会变大。这种叠加效应在许多实际场景中都有体现,例如不同地区人口身高的分布叠加。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号