问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

正态分布——“牛而B之”

创作时间:
作者:
@小白创作中心

正态分布——“牛而B之”

引用
1
来源
1.
https://www.cnblogs.com/Gaowaly/p/18353774

正态分布,又称常态分布或正常分布,是一种在自然界和社会科学中广泛存在的连续概率分布。从身高、体重到考试成绩,许多常见的数据都呈现出正态分布的特征。本文将从多个角度深入探讨正态分布的定义、性质及其在现实生活中的应用。

1. 什么是正态分布?

正态分布,也有地方叫“常态分布”,这两个名字都不太直观,但如果我们各取一字变为“正常分布”,就很白话了,而这正是“正态分布”的本质含义,Normal Distribution。它太常见了,基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。

你可能不禁要问,这是为什么?我们认为,这其实同质、变异的概念相关。因为我们研究的对象具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。

连续型随机变量研究区间概率

了解了正态分布的基本思想,我们来看看实际应用中我们需要掌握的要点。首先,正态分布属于“连续型随机变量分布”的一类。我们知道,对于连续型随机变量,我们不关注“点概率”,只关注“区间概率”,这是什么意思?

我们看这个例子,假定随机变量X指是“北京市成年男子的身高”,理论上它可以取任意正数,所以我们把它当做一个连续型随机变量(连续型变量,就是指可以取某一区间或整个实数轴上的任意一个值的变量)来看待。这里,我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少,这就是所谓的“点概率”。更极端一点,让随机变量Y是[0,1]这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率。

概率密度函数(PDF Probability Density Function)

对于初学者来讲,“概率密度”可能是最不友好的一个概念,直接谈概率不行吗,好好的为什么要生出一个“密度”?的确,没有太多数理基础,这个概念着实不太好理解。虽然文字和数学公式上你可能感觉很陌生,但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区间的数据越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。除此之外,另一个关于概率密度函数的重要知识点是,积分(这里简单理解为“密度曲线下面积“即可)等于概率。随机变量X在某个区间比如(a,b)即a<X<b的概率,就是概率密度曲线在这个区间下的面积,数学上的表达就是密度函数在区间(a, b)上的积分。所以,概率的大小就是“概率密度函数曲线下的面积”的大小,这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”。

下图中的三条曲线f(x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,同学们要熟知。

均数和标准差

前面说对于正态分布的概率密度函数以及积分不用特别关注,那真正需要关注的是什么呢?就是均数和标准差。这里需要明确的是,一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

关于正态分布均数和标准差的性质,我们这里简单总结一下:

  1. 概率密度曲线在均值处达到最大,并且对称;
  2. 一旦均值和标准差确定,正态分布曲线也就确定;
  3. 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;
  4. 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1;
  5. 均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平;标准差越小,正态曲线越陡峭。这是因为,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现瘦高型。相反,标准差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),图形呈现“矮胖型”。

我们可以对照下图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值一样,但标准差不同,所以形状不同,根据我们的描述,图形越瘦高,标准差越小,图形越扁平,标准差越大。确实如此,图中B的标准差是1/2,小于A的标准差1。

正态分布的来源

正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布。后来推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布。一般来说,只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的。

正态分布与统计学的关系

正态分布更多地属于统计学范畴,因为它主要涉及从观测数据中推断这些数据服从的随机变量概率规律,也就是概率密度曲线(pdf)。

正态分布的基本概念

正态分布

正态分布的概率密度函数为:
f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]

其中,u是正态分布的平均值,δ是标准差。

标准正态分布

当u=0,δ=1时,就是标准正态分布。标准正态分布的概率密度函数更简洁。

正态分布曲线的特点

  • 第1置信区间:[-δ,δ]之间,包含68.3%的数据
  • 第2置信区间:[-2δ,2δ]之间,包含95.4%的数据
  • 第3置信区间:[-3δ,3δ]之间,包含99.7%的数据

正态分布的推论

  • 正态分布变量的和,一般也是正态分布
  • 正态分布相加,一般期望就等于2者期望之和,标准差等于2者标准差之和
  • 正态分布相加,正态分布会变扁(因为标准差是求和变大了!越大越扁)
  • 正态分布还和柯西分布,k2分布有关系

正态分布的应用场景

适用范围

正态分布的适用范围非常广泛,例如世界卫生组织(WHO)统计的儿童身高体重数据就符合正态分布的三个区间。在实际应用中,通常关注[-2δ,2δ]之间的数据,因为这个区间包含了95.4%的数据。

适用条件

一般来说,只要是对同一类型变量的大量独立重复试验,结果都会趋向于正态分布。这是因为研究对象具有同质性,特征趋同,但又存在个体变异,这些特征会在基准值上下波动。

不适用条件

如果随机元素之间存在相互影响,或者影响因素较少,结果可能不符合正态分布。

正态分布的理论基础

极大似然估计

中心极限定理

最小二乘法

样本量一般至少要超过30才可以认为可以近似正态分布。

相关分布

  • k2分布
  • f分布
  • t分布等

有趣的研究

牛人们根据这个研究出,不同XX的人组合,就是正态分布的叠加,因此标准差会变大。这种理解角度非常有趣,展现了正态分布在复杂系统中的应用潜力。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号