正态分布的衍生:卡方、t和F分布如何改变统计学?
正态分布的衍生:卡方、t和F分布如何改变统计学?
近代统计学的奠基人之一,英国统计学家罗纳德·费希尔(Ronald Fisher)将抽样分布、参数估计和假设检验视为统计推断的三大核心要素。
罗纳德·费希尔(现代统计科学的奠基人之一)
他认为,研究统计量的性质以及评估统计推断的优劣,完全依赖于对抽样分布特性的深入理解。因此,对抽样分布的研究在统计学领域占据着举足轻重的地位。
在总体 的分布类型已知时,若对任一自然数 都能导出统计量 的分布的数学表达式,这种分布称为精确的抽样分布。它对样本量 较小的统计推断问题非常有用。
正态分布
精确的抽样分布大多是在正态总体情况下得到的。在正态总体条件下,主要有 (卡方)分布、 分布、 分布,常称为统计三大分布。
卡方分布
统计学不再难
卡方分布(Chi-square distribution)是由赫尔默特(Helmert)和皮尔逊分别于1875年和1900年推导出来的。
🍃定义:设随机变量 相互独立,且 服从标准正态分布 ,则它们的平方和 服从自由度为 的 分布。
自由度是统计学中常用的一个概念,它可以解释为独立变量的个数,还可解释为二次型的秩。
例如, 是自由度为 1 的 分布,; 是自由度为 的 分布,。
下图是当 ,,, 时, 分布的概率密度函数曲线。
分布的示意图
分布的数学期望为:;
分布的方差为:;
分布具有可加性,即若 ,,且独立,则
由上图可以看出:当自由度足够大时, 分布的概率密度曲线趋于对称。当 时, 分布的极限分布是正态分布。
备注:关于卡方分布的密度函数较为复杂,非统计专业只关心应用的读者不必了解,加之篇幅有限,所以本文不介绍 卡方分布、t 分布、F 分布的密度函数。有兴趣的读者可参见数学形式比较严谨的有关数理统计图书。
的 分位数 可由卡方分布表查得。当自由度 很大时,
分布表的示意图
实际上,当自由度 时,有
式中, 即 ,为正态 分位数,可由正态分布表查得。
t 分布
统计学不再难
t 分布(t distribution)也称为学生氏分布,由戈塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出的。
🍃定义: 设随机变量 ,,且 与 独立,则
其分布称为 分布,记为 ,其中, 为自由度。
下图 分布的密度函数是一偶函数。
t 分布的示意图
当 时, 分布的数学期望 。
当 时, 分布的方差 。
由上图可以看出, 分布的密度函数曲线与标准正态分布 的密度函数曲线非常相似,都是单峰偶函数。
只是 的密度函数的两侧尾部要比 的两侧尾部粗一些。 的方差比 的方差大一些。
自由度为 1 的分布称为柯西分布,随着自由度 n 的增加,t 分布的密度函数越来越接近标准正态分布的密度函数。
实际应用中,一般当 n ≥ 30 时,t 分布与标准正态分布就非常接近。
正态分布与 t 分布的区别
t 分布的诞生对于统计学中小样本理论及其应用有着重要的促进作用。特别是当戈塞特最初提出 t 分布时并不被人们重视和接受。
后来费希尔在农业实验中也遇到小样本问题,这才发现 t 分布有实用价值。
农业试验
1923 年,费希尔对 t 分布给出严格而简单的证明,1925 年编制出 t 分布表之后,戈塞特的小样本方法才被统计界广泛认可。
下面是一个与 分布有关的抽样分布。
设 是来自正态分布 的一个样本,,,则
称为服从自由度为 的 分布。
设 和 是两个相互独立的总体,,, 是来自 的一个样本, 是来自 的一个样本,记
则
F 分布
统计学不再难
F 分布(F distribution)是统计学家费希尔首先提出的。F分布有着广泛的应用,在方差分析、回归方程的显著性检验中有重要的地位。
🍃定义:设随机变量 与 相互独立,且 和 分别服从自由度为 和 的 分布,随机变量 有如下表达式:
则称 服从第一自由度为 ,第二自由度为 的 分布,记为 ,简记为
下图是一个 分布的密度函数的图形。
F 分布密度函数示意图
若随机变量 服从 分布,则数学期望 和方差 分别为:
F 分布表的示意图
分布的 分位数 可查 分布表获得,且
由此可知,在 分布中,两个自由度的位置不可互换。这一性质在查 分布表时有重要应用。
分布与 分布还存在如下关系:如果随机变量 服从 分布,则 服从 的 分布。这在回归分析的回归系数显著性检验中有用。
注:文章中未声明图片均来源于互联网