正态分布:五种推导方式揭示其普适性与稳定性
正态分布:五种推导方式揭示其普适性与稳定性
正态分布(Normal Distribution),又名高斯分布(Gaussian Distribution),是概率论和统计学中极为重要的一种连续概率分布。它在自然科学、社会科学、工程学等领域都有广泛的应用,例如在物理现象的描述、误差分析、信号处理、金融建模等方面。正态分布的重要性不仅在于其数学性质,还在于它能够很好地描述许多自然现象和社会现象。本文将深入探讨正态分布的本质,从多个角度阐述其推导过程和特性。
一、正态分布的多种推导方式
正态分布的存在非常广泛,光看正态分布的数学式和图像,我们能过够发现其自带的对称性和普适的置信区间。正态分布可以用多种方式推出,不同的出发点能体现出正态分布的更多特点。
1.1 棣莫弗和拉普拉斯:二项分布无穷次伯努利实验的中心极限
对一个二项分布(无论其概率是否等于1/2),其n次伯努利实验的结果Xn将符合一个正态分布的形式。这是通过对求和公式在n趋近无穷时近似化简得来的。高尔顿版是二项分布伯努利实验的一个特例,其二项分布是+1和-1均有概率P=1/2,每一次小球碰撞立柱就是在进行一次伯努利实验,n次伯努利实验后小球落点的横坐标即为Xn,多个小球代表着多次伯努利实验。由此绘制出Xn的取值概率分布图。
可以看出,同种性质的二项分布微观累加并作用于宏观整体将产生正态分布,体现出宏观整体的不确定性。这条性质在2.1中被证明可以有更大的作用范围,不再局限于二项分布。
1.2 高斯(1809):真实值极大似然估计(等价于算术平均、最小二乘)
为求L的极大值,对L先取对数ln再求导取导数为0,此时必为L的极值。高斯使用了假设,暴力将算术平均代入为极大似然估计的解,陷入了循环论证,但是万一暴力代入没有问题,这将定性说明正态分布、极大似然估计与算术平均最小二乘确实存在某种关系。
1.3 赫歇尔 (1850) 和麦克斯韦(1860):空间几何独立性与旋转对称性
再根据概率密度积分为1求出A,根据均值和方差定义求出均值和方差即可。赫歇尔-麦克斯韦没有利用任何概率论知识,只是基于假设的空间几何的不变性,就推导出了正态分布。合理外推,空间或时间中连续的同种不确定性叠加将产生正态分布。
1.4 电气工程师兰登(1941):噪声增量式中心极限
兰登根据观察到的噪声电压分布现象,提出随机噪声的两个准则,进而推出噪声分布的概率密度函数是正态分布,通过客观的自然现象佐证了正态分布的存在。他的准则指出,微小的累加随机噪声并不改变已经形成的稳定分布模式,只改变分布层级(用方差衡量)。
1.5 杰恩斯:最大熵
想看完整推导的请自行查阅相关资料[3]。描述一个随机事件的不确定度,就比如投一枚硬币,两面概率相同时我们最不确定硬币会朝向哪一面,此时随机事件的信息熵最大,而正面概率为P和正面概率为1-P的对称情况在直观上不确定性是相同的,香农定义的信息熵公式很好的描述了这种自然现象,并在log底为2时正好转为二进制bit数来计量。正态分布在给定均值和方差时拥有最大熵,这和宇宙不自觉熵增不相而合,正因如此正态分布才会广泛存在。列举一些最大熵原理和数学统计的联系。
二、正态分布的稳定性
2.1 林德伯格-列维中心极限定理:正态分布的产生条件及其内部稳定性
在1.1中我们得出结论:同种性质的二项分布微观累加并作用于宏观整体将产生正态分布。事实上,这并不局限于二项分布,接下来将介绍和证明,只要是同种性质(均值,方差)不确定性的微观累加并作用于宏观整体就会产生稳定的正态分布。这就是我们熟知的中心极限定理。
我将通过傅里叶变换来证明中心极限定理,原始出处我不想找文献了,这个是别人的笔记[4]
中心极限定理已经揭示了正态分布的产生条件,即同种性质(均值、方差)不确定性的微观累加并作用于宏观整体。只要求均值和方差相同体现了正态分布的内部稳定性,即正态分布的形成不强求完全一样的不确定性微粒,而只要相似即可。
2.2 正态分布之间的运算性质:外部稳定性[5]
在自然条件下,一定范围内的所有微粒具有相同的均值和方差,大量微粒累加组成的宏观整体自然而然走向正态分布,这是同一个正态分布系统走向的必然,是命运所在。多个正态分布系统之间的相互作用又怎样呢?正态分布系统之间的许多运算结果也是正态分布形式,这也是另一个正态分布广泛存在的理由。
证明一:两正态分布系统概率密度相乘(频域的卷积)得到的新系统概率密度是幅值伸缩的正态分布概率密度形式。
证明二:两个正态分布系统的线性组合(实域的卷积)还是正态分布系统。
参考文献
[1] https://cosx.org/2013/01/story-of-normal-distribution-1/
[2] The Normal Distribution: A derivation from basic principles, Dan Teague , The North Carolina School of Science and Mathematics
[4] https://www.cnblogs.com/TaigaCon/p/5014957.html
[5] https://blog.csdn.net/weixin_40064300/article/details/129516762
读后谈
本篇指出,大量同均值、方差的不确定性微粒累加作用于整体,将使整体的不确定性呈正态分布,这个正态分布一经形成,在内部是稳定的,在外部和其他正态分布相互作用时也保持着相当的稳定性。而自然界中,一定范围的自然条件是相同的,并且物质由大量微粒构成,正态分布得以广泛存在,这是规定均值和方差后熵增的必然结果。因此我们在分析各种数据时,经常会使用正态分布,比如分析噪声影响时假设的高斯白噪声。
如果有机会,会再单独开一篇讲讲正态分布的抽样,在课本上就是大家都学过的抽样估计,然后导出统计学三大分布(卡方分布,T分布,F分布),研究一下他们的性质和作用。如果我有更想研究的方向,那这个计划就无限期搁浅,写这篇的原因本身就是解决对正态分布本身的困惑。毕竟“吾生也有涯,而知也无涯 。以有涯随无涯,殆已!”