问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

正态分布:统计学中的“常态”

创作时间:
作者:
@小白创作中心

正态分布:统计学中的“常态”

引用
1
来源
1.
https://www.cnblogs.com/Gaowaly/p/18353774

正态分布是统计学中最重要的一种连续型概率分布,其概率密度函数呈钟形曲线,因此也被称为钟形曲线。正态分布具有许多优良的性质,如可加性、稳定性等,在自然科学、社会科学、工程等领域都有广泛的应用。

什么是正态分布?

正态分布(Normal distribution),又称高斯分布(Gaussian distribution),是一种极其常见的连续概率分布。其概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。

正态分布的概率密度函数为:

$$
f(x) = \frac{1}{\sqrt{2\pi}\delta}e^{-\frac{(x-u)^2}{2\delta^2}}
$$

其中,$u$是分布的均值,$\delta$是分布的标准差。

正态分布具有以下性质:

  • 概率密度曲线在均值处达到最大,并且对称;
  • 一旦均值和标准差确定,正态分布曲线也就确定;
  • 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;
  • 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1;
  • 均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平;标准差越小,正态曲线越陡峭。

正态分布的历史

正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布。后来推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布。正态分布的名字来源于其概率密度函数的形状,也被称为“常态分布”或“正常分布”。

正态分布的发现和发展涉及多位数学家,包括高斯、拉普拉斯、棣莫弗、勒让德等。高斯因发明最小二乘方法而对正态分布的发展做出了重要贡献。

正态分布的应用

正态分布在统计学中具有极其重要的地位,其应用范围非常广泛。例如,世界卫生组织(WHO)统计的儿童身高体重数据就符合正态分布的特征。在实际应用中,只要是对同一类型的变量进行大量独立重复试验,结果往往都会趋向于正态分布。

正态分布的适用条件包括:

  • 试验次数足够大;
  • 试验结果相互独立;
  • 影响因素众多且相互独立;
  • 各因素对结果的影响是加性的。

不满足上述条件的情况可能不适合用正态分布来描述,例如,当随机元素之间存在相互影响或作用关系时,结果可能不符合正态分布。

正态分布的特性

正态分布具有以下特性:

  • 三个置信区间:[-δ,δ]之间包含68.3%的数据,[-2δ,2δ]之间包含95.4%的数据,[-3δ,3δ]之间包含99.7%的数据;
  • 平均值(期望)是所有数据的算术平均值;
  • 极端值很少,在[-3δ,3δ]之外的数据很少;
  • 标准差小,则数据集中,钟形曲线瘦高;标准差大,则钟形曲线扁平。

正态分布变量的和一般也是正态分布,其期望等于各变量期望之和,标准差等于各变量标准差之和。正态分布还与其他分布(如柯西分布、卡方分布)有密切关系。

正态分布的理论基础

正态分布的广泛应用基于以下几个重要理论:

  • 极大似然估计:用于估计正态分布的参数。
  • 中心极限定理:解释了为什么大量独立随机变量的和会趋近于正态分布。
  • 最小二乘法:在回归分析中,假设误差项服从正态分布。

当样本量足够大(通常认为超过30)时,可以近似认为数据服从正态分布。

结语

正态分布是统计学中最重要的概念之一,其广泛的应用和坚实的理论基础使其成为数据分析和科学研究中的核心工具。通过理解正态分布的性质和应用条件,可以更好地运用这一工具解决实际问题。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号