统计学入门:方差齐性及其作用
统计学入门:方差齐性及其作用
方差齐性(Homogeneity of Variance 或 Equal Variance)指在不同的组或条件下,观测值的方差是否大致相等,这一概念在统计学中非常重要。在进行方差分析(ANOVA)时,方差齐性是重要的前提条件之一,因为方差齐性不仅确保了ANOVA的有效性,也保证了ANOVA结果的可信度。
方差及方差齐性
罗纳德·费舍尔于1918年提出了方差(variance )的概念。方差是衡量一组数据点围绕其平均值的分散程度的指标,它量化了每个数据点与数据集平均值的偏离程度。
方差可分为总体方差和样本方差。总体方差是针对整个数据集的方差。对于总体方差,我们考虑的是整个数据集中所有数据点相对于总体均值的偏离程度。总体方差的计算公式如下:
其中,N 是总体数据点的数量,μ 是总体均值。
样本方差是从整体数据集中抽取的一部分数据计算得到的方差。样本方差是从样本数据中计算得到的,通常用于估计总体方差。样本方差的计算公式如下:
其中n是样本数据点的数量,x(上面还有一横)是样本均值。
总体方差和样本方差之间的区别在于计算公式中的除数。总体方差的除数是总体数据点的数量N,而样本方差的除数是样本数据点的数量n−1。因为样本方差要对总体方差进行估计,所以需要考虑样本数据与总体的差异性,使用n−1作为除数进行修正,这种修正称为自由度调整。
方差齐性指在不同的组或条件下,观测值的方差是否大致相等。例如,在下图中,黑线较尖,数据分布更靠近均值,方差较小;红线较平,数据分布更分散,方差较大。
图2 多组方差基本一致
理想情况下,当我们比较多组数据是否有明显差异时,我们希望分布基本一致,即方差大致相等。换成数学术语来说,即方差齐性。在下图中,我们可以看到这三个曲线除了均值之外,分布基本一致(曲线的形状)。
图3 小提琴图+箱图+散点图
当然,现实生活中没有那么完美。通常情况下,我们可以用小提琴图+箱图+散点图观察数据分布情况。
图3 小提琴图+箱图+散点图
在上图中,我们可以看出这两个分布不一致,左侧宽,右边较窄,不符合方差齐性的要求。下面让我们再来看两个实验。
实验1- 药物实验
在这个实验中,我们需要比较不同剂量的药物对某种疾病的治疗效果。我们进行了三种不同剂量的治疗,即低剂量、中剂量和高剂量,且每种剂量的治疗组中有相同数量的患者。我们收集了每个治疗组的疗效数据,即疗效的量化数据。
实验的具体步骤如下:
确定治疗组和样本数量:首先,我们确定了三种不同剂量的治疗组,即低剂量、中剂量和高剂量。然后,我们确保每个治疗组中有相同数量的患者,以确保样本量的一致性。
收集数据:我们收集了每个治疗组的疗效数据。这些得分在治疗后测量,用于评估治疗效果的好坏。
检验方差齐性:为了确定每个治疗组的数据方差是否相似,我们可以使用统计方法进行检验,例如Levene's检验或Bartlett's检验。
Levene's检验是一种用于检验多组之间方差是否相等的统计方法。Levene's检验的原假设是各组之间的方差相等,备择假设是至少有一个组的方差与其他组不同。
Levene's检验的步骤如下:
收集数据:首先,收集不同组之间的数据。
计算每组的均值:对于每个组,计算其样本数据的均值。
计算每个观察值与其组内均值的偏差的绝对值:对于每个观察值,计算它与所属组的均值之间的偏差的绝对值。这个步骤的目的是计算出每个观察值的离散程度。
根据偏差绝对值计算Levene's检验统计量:Levene's检验统计量通常基于偏差绝对值的方差。
进行假设检验:根据Levene's检验统计量,进行假设检验以确定各组之间的方差是否相等。通常,我们会计算一个p值,根据p值来判断是否拒绝原假设。
在实际应用中,可以使用统计软件或编程语言(如Python、R、SPSS等)来进行Levene's检验。
进行统计分析:如果方差齐性假设成立,我们可以继续进行统计分析,例如单因素方差分析(ANOVA),以比较不同剂量治疗组之间的疗效差异。如果方差齐性假设不成立,我们可能需要使用非参数方法或对数据进行转换后来进行分析。
图4 ANOVA示意
实验2
假如我们想比较两个国家(A国和B国)居民的收入有没有明显差异。假设在A国,收入分布相对较为均衡,大多数人的收入水平相对接近,收入差距较小;在B国,由于经济发展水平和社会结构的不同,收入分布相对较为不均衡,存在着较大的收入差距,即少数人的收入非常高,而大多数人的收入较低。
假设我们对A国和B国的1000个家庭进行了调查,记录了他们的年收入情况,在A国,收入分布可能会呈现出类似正态分布的形状,即大多数家庭的收入集中在中间值附近,形成一个相对对称的曲线。这意味着在A国,家庭收入的方差相对较小,因为大多数家庭的收入相对接近,收入差距较小。
而在B国,收入分布可能呈现出有偏分布的形状,即有少数家庭的收入非常高,形成一个长尾,而大多数家庭的收入相对较低。这意味着在B国,家庭收入的方差相对较大,因为收入差距较大,存在着极端值。
如下图所示,蓝线(A国)的分布为较对称的正态分布,橙线(B)则是不对称的,低收入人群较多,特别高的收入人群也不少。
图5 正态分布和偏分布
在这个例子中,A国和B国的居民收入分布具有不同的方差。因此,不符合方差齐性假设,所以不能用ANOVA。
结语
综上所述,方差齐性则是进行统计分析时需要考虑的重要因素之一。通过对方差及方差齐性的理解和应用,我们可以更准确地进行数据分析和推断,从而得出更可靠的结论。下一节我们将具体讲解另一个重要的概念“协方差”,敬请关注!
参考文献
ANOVA in R: The Ultimate Guide. Datanovia. Retrieved May 9, 2024, from https://www./en/lessons/anova-in-r/
Wanzer, D. Homogeneity of variance | Statistics with jamovi. Retrieved May 9, 2024, from https://danawanzer./stats-with-jamovi/homogeneity-of-variance.html
Using Analysis of Variance (ANOVA) in ecological research. Using Analysis of Variance (ANOVA) in Ecological Research. Retrieved May 9, 2024, from https://howecoresearch./2019/01/using-analysis-of-variance-anova-in.html
chiquita-clayton. (2019, March 11).PPT - Statistics Used in One-way Analysis of Variance PowerPoint Presentation—ID:6981796. SlideServe. https://www./chiquita-clayton/statistics-used-in-one-way-analysis-of-variance-powerpoint-ppt-presentation
The Variance and Standard Deviation—Mrs.Mathpedia. (2021, June 18). https:///the-variance-and-standard-deviation/
Symmetrical Distribution Defined: What It Tells You and Examples. Investopedia. Retrieved May 9, 2024, from https://www./terms/s/symmetrical-distribution.asp
Variance. (2024). In Wikipedia. https://en./w/index.php?title=Variance&oldid=1221320332