为什么样本方差(sample variance)的分母是 n-1?
为什么样本方差(sample variance)的分母是 n-1?
在统计学中,样本方差的计算公式中分母为什么是n-1而不是n?这个问题困扰着许多初学者。本文将从自由度的概念出发,通过严谨的数学推导,为您揭示这个看似简单却蕴含深刻统计学原理的问题。
样本均值与样本方差的定义
首先,我们来看一下均值、方差、样本均值与样本方差的定义:
总体均值的定义:
总体中所有样本值加总除以个数,也可以叫做总体的数学期望或简称期望。总体方差的定义:
总体中全部样本各数值与总体均值差的平方和的平均数,用来衡量随机变量或一组数据离散程度的度量。
在实际应用中,我们一般是拿不到总体的均值与总体的方差,只能通过抽样得到的样本均值与样本方差来估计总体的均值与方差。于是我们就得到了样本均值和样本方差:
样本均值的定义:
样本中所有观测值的算术平均数。样本方差的定义:
样本中每个观测值与样本均值之差的平方和除以(n-1)。
对比总体方差的公式,样本方差的公式的系数为什么变为了n-1?接下来,我们将从自由度的角度来解释这个问题。
通俗理解:自由度
一个比较通俗的理解就是自由度,可以理解为对应的独立信息量。样本均值和样本方差就是抽样后把所有的独立的信息量(这里的独立的信息量就是数值,包含了均值和方差的信息)平均得到,在计算样本方差时用样本均值替代了总体均值,自由度减少了一个。
假设只采样了两个样本,这其中的信息量是多少呢?方差是计算样本之间的偏离程度,所以一个独立有效的信息量就是这个数值减去均值。在计算方差时分子有两项:(x1 - x̄)² 和 (x2 - x̄)²。要算第一个样本的偏离程度,毋庸置疑只能老老实实算 (x1 - x̄)²;但是,第二个样本呢?计算 (x2 - x̄)² 吗?其实还有另外一种方法,因为 x̄ = (x1 + x2) / 2,所以 (x2 - x̄)² 实际上等于 (x1 - x̄)²。也就是说,在用样本均值替代总体均值后,只要确定了 (x1 - x̄)²,就可以根据对称性推出具体数值,实际能够有效提供样本到的偏移量的信息数只有一条。
我们对这种现象可以有一个表述:就是 (x2 - x̄)² 是不自由的,因为从之前的式子可以推出它。当然,对称地,我们也可以说是 (x1 - x̄)² 不自由的。总之,这两个式子当中,只有一个是自由的,所以我们称这两个式子的自由度为 1。所以在两个样本求方差的时候要除1,应为实际应用到方差计算种的只有这一个有效信息。
同样,将样本数增加至三个,当有两个样本并且知道的情况下,我们就可以推出第三个样本的值,对应的自由度为 2。
以此类推,当我们有n个样本的时候,其自由度为n-1。也就是说,当我们有n个样本的时候,我们虽然看起来在分子上做了n个减法,但实际上我们只算出了n-1个偏差量。因此,做平均的时候,要除以的分母就是n-1。
但是,为什么n个减法做完,自由度只有n-1?是谁从中搞鬼,偷走了一个自由度?答案很简单,是样本均值。注意在总体方差中,隐含的分布均值是μ,这个均值是知道了总体的分布后计算出来的,而在样本方差中μ是未知的,所以在估计方差之前,我们会需要先找一个μ的代替,也就是x̄,而x̄是根据样本算出来的。也就是说,在用x̄代替μ的过程中,我们损失了一个自由度。
那么,如果问题的背景变了,我们知道隐含的分布均值,只是不知道σ²,那我们该如何估计?这种情况下求方差就变成了符合直觉的n。
严密推导过程
当我们用抽样的方法去估计总体时,总是希望每次抽样的结果尽可能的靠近实际的总体评估量,同时抽取的样本越多时越接近实际的总体评估量。对于评估量的好坏有如下三个评价指标:
无偏性
设θ是总体的未知参数,X是总体的一个样本,T(X)是参数θ的一个估计量,若
E[T(X)] = θ
则称T(X)是θ的一个无偏估计量。无偏性简单来说就是取样后得到的估计量的期望就等于总体的估计量。
考虑如下一个打靶的例子。如果有一个射击高手打靶,那么结果总会在靶心附近(总体期望),那么我们一般会通过打靶结果(也就是样本)认为这是一个熟练的射击手,对于多次的打靶结果我们对其打靶结果的期望是靶心(μ),也就是无偏的。
但如果出现了如下这种结果,通过这些样本我们就会猜测集中在一点附近可能是一个射击高手,这个偏差可能是由于瞄准镜歪了这种导致的呢
对于这种稳定影响结果的因素导致的偏差称为系统偏差,也就是E[T(X)] ≠ θ。无偏估计的实际意义就是无系统偏差。很明显无偏估计更接近实际的总体统计量。
有效性
若T1(X)和T2(X)都是样本的无偏估计量,若对于任意取值范围里有Var(T1(X)) ≤ Var(T2(X)),则T1(X)比T2(X)更加有效。有效性就是同样无偏的估计量,更集中,方差更小的估计量更好。接着考虑如下打靶结果,虽然期望都是靶心,但是很明显后面的结果更加集中,相应的评估效果也会更好。
相合性
之前的无偏性和一致性都是在样本容量固定为n的情况下讨论的,而如果样本容量越来越多时,一个估计量能稳定于待估的参数真值。相合性在大样本条件下,估计值等于实际值。对于任意ε > 0,有
P(|T(X) - θ| < ε) → 1
接下来,我们通过数学推导来证明样本方差分母为n-1的必要性。
首先来看一下在分母为n的情况下样本方差是不是总体方差的无偏估计量:
设总体方差为σ²,样本方差为S²,样本均值为x̄,则有
S² = 1/n * Σ(xi - x̄)²
其中
x̄ = 1/n * Σxi
接着计算E[S²]:
E[S²] = E[1/n * Σ(xi - x̄)²]
= E[1/n * Σ(xi² - 2xix̄ + x̄²)]
= E[1/n * Σxi² - 2x̄Σxi/n + n*x̄²/n]
= E[1/n * Σxi² - 2x̄² + x̄²]
= E[1/n * Σxi² - x̄²]
可以看到同样在除以n的情况下只有当n=1时才有E[S²] = σ²,在其他情况下都是小于σ²的。这一个结果也很好理解,只要样本均值越偏离总体均值,样本也就越偏离总体均值。
接下来就是要计算出差异是多少:
由
σ² = E[(xi - μ)²]
= E[xi² - 2xiμ + μ²]
= E[xi²] - 2μE[xi] + μ²
= E[xi²] - μ²
代入有:
E[S²] = E[1/n * Σxi² - x̄²]
= E[1/n * Σxi²] - E[x̄²]
= E[1/n * Σxi²] - E[(1/n * Σxi)²]
= E[1/n * Σxi²] - E[1/n² * Σxi² + 1/n² * ΣΣxixj]
= E[1/n * Σxi²] - E[1/n² * Σxi²] - E[1/n² * ΣΣxixj]
= (n-1)/n * E[1/n * Σxi²] - E[1/n² * ΣΣxi*xj]
所以
E[S²] = (n-1)/n * σ²
进行一下调整,即有
E[S²] = σ² * (n-1)/n
因此,为了使样本方差成为总体方差的无偏估计量,我们需要将样本方差的分母调整为n-1,即
S² = 1/(n-1) * Σ(xi - x̄)²
这样,我们就可以得到
E[S²] = σ²
这表明,当分母为n-1时,样本方差S²是总体方差σ²的无偏估计量。