问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ML基本知识01——正态分布

创作时间:
作者:
@小白创作中心

ML基本知识01——正态分布

引用
CSDN
1.
https://blog.csdn.net/matthewchen123/article/details/107646603

正态分布,又称高斯分布,是统计学和机器学习中最重要的概率分布之一。本文将从正态分布的定义、特点、标准正态分布以及其广泛应用的原因等方面进行介绍。

正态分布

正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布。遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。

正态分布是一种概率分布,有两个参数μ和σ^2.

两参数的连续型随机变量的分布。

第一参数μ:

遵从正态分布的随机变量的均值

第二个参数σ^2:

是此随机变量的方差,所以正态分布记作N(μ,σ^2 )。

正态分布特点:

  • 密度函数关于平均值对称
  • 平均值与它的众数(statistical mode)以及中位数(median)同一数值。
  • 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。95.449974%的面积在平均数左右两个标准差的范围内。99.730020%的面积在平均数左右三个标准差的范围内。99.993666%的面积在平均数左右三个标准差的范围内。

标准正态分布

标准正态分布(standard normal distribution)称为u分布,是以0为均数、以1为标准差的正态分布,记为N(0,1)。

为什么正太分布应用广泛

中心极限定理(centeallimit theorem)

大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。在自然界与生产中,一个事件(一个现象)受到许多相互独立的随机因素的影响,每个因素所产生的影响都不非常显著时,但是这些因素之间又有关联,最终这些因素对时间的总影响会使得大量独立随机变量的平均数可以看作是服从正态分布的。

设从均值为μ、方差为σ2;有限的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号