问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

如何使用Excel执行卡方独立性检验

创作时间:
作者:
@小白创作中心

如何使用Excel执行卡方独立性检验

引用
1
来源
1.
https://drfishstats.com/inferential-stats/statistical-tests/nonparametric-tests/chi-square-test-of-independence-using-excel/

卡方独立性检验(chi-square test of independence)是行为和社会科学中常用的一种非参数检验方法,适用于两个名义尺度变量的数据,用于探讨这两个变量的数据是否彼此独立或相互关联。在进行卡方独立性检验前,通常会先制作一个列联表(contingency table),了解两个变量之间的关系后再执行假设检验。

虽然使用专门的统计分析软件(如SPSS、SAS、STATA)可以很方便地执行卡方独立性检验,但在没有这些专业软件的情况下,也可以使用微软的Excel来进行分析。虽然操作过程稍微复杂一些,但不失为一个实用的工具。

下面将直接进入技术层面的操作方法介绍,不会说明卡方独立性检验的使用时机、基本假设和假设检验的过程。如果您想了解这些内容,可以参考相关资料。另外,操作过程需要使用Excel进行数学计算,若您不熟悉使用方法,可以先学习如何使用Excel进行数学计算。

这里使用一个例子,调查不同生理性别的成年人和政党支持倾向间是否有关联,生理性别的两个类别为生理女性和男性,而政党的三个类别为政党A、政党B和政党C。研究样本为500位成年人,生理性别和政党倾向的列联表如下:

政党A
政党B
政党C
列合计
120
15
115
250
90
10
150
250
210
25
265
500

这个例子的虚无假设为生理性别和政党支持倾向彼此独立,而对立假设为生理性别和政党支持倾向存在关联。利用上面列联表里的数据,显著水平设为0.05,采用卡方独立性检验,试问生理性别和政党支持倾向是否具有关联性?下面将逐步示范如何使用Excel执行卡方独立性检验,并用两种方法评估分析的结果。

期望次数和卡方检验统计量的计算

先把上面列联表的数据原封不动地输入至一空白的活页簿或工作表里,如下图。图中的Party A、Party B、Party C指政党A、政党B、政党C,而Female、Male为生理女性和生理男性,依据个人的喜好,直接使用中文也行。

复制输入完成的列联表数据,并贴上至旁边的储存格里,再删除列联表里的观察次数(黑色边框里面6个储存格的数值)。接着,计算每一个观察次数的期望次数,先从储存格B3的观察次数开始。在储存格H3里输入公式**=E3B5/E5*,按下Enter会传回数值105,这就是倾向政党A、生理女性(储存格B3)的期望次数。

运用相同的方法,计算出另外5个观察次数的期望次数。如果您不清楚另外5个观察次数的期望次数计算公式,可以参考下面的说明。

  • 储存格I3:=E3*C5/E5⇒ 倾向政党B的生理女性
  • 储存格J3:=E3*D5/E5⇒ 倾向政党C的生理女性
  • 储存格H4:=E4*B5/E5⇒ 倾向政党A的生理男性
  • 储存格I4:=E4*C5/E5⇒ 倾向政党B的生理男性
  • 储存格J4:=E4*D5/E5⇒ 倾向政党C的生理男性

经过上面的计算,完成后的期望次数如下图右侧的表格所示。此时,原本的观察次数和运算后的期望次数已经完整地呈现出来,可以开始计算卡方检验统计量。

卡方检验统计量为每一个观察次数减去期望次数后平方再除以期望次数的数值加总,因为这个例子有6个观察次数,所以要计算出6个数值。

再复制一次原本的列联表,贴上至刚才完成的期望次数表格的下方或任何空白的地方,并删除6个观察次数(下图的储存格H9到J10)。先从倾向政党A的生理女性开始,在下图的储存格H9里输入公式**=(B3-H3)^2/H3,按下Enter**会传回数值2.14286。

利用相同的方法计算剩余5个储存格的卡方检验统计量所需的数值,可以直接复制储存格H9并贴上至储存格I9、J9、H10、I10和J10,即可以得到剩余5个储存格的数值,完成后的结果如下图。

最后,把储存格H9到J10的数值相加,就是卡方检验统计量。您可以一个一个地相加,也可以使用SUM函数来进行加总。这里使用SUM函数,在下图的储存I13里输入**=SUM(H9:J10),按下Enter**会传回数值9.90836,这就是卡方检验统计量。

求得卡方检验统计量之后,就可以进入分析结果的评估,也就是决策规则的运用。决策规则有两种,一种是检验统计量和临界值的比较,另一种是获得检验统计量的概率(p值)和显著水平的比较,下面将分别示范操作方法。

运用CHISQ.INV.RT函数取得卡方临界值

第一种评估卡方独立性检验分析结果的决策规则为检验统计量和临界值的比较,当检验统计量等于或大于临界值的时候,就可以拒绝生理性别和政党支持倾向没有关联的虚无假设。

上面已经计算出卡方检验统计量,接着需要取得临界值后才可以进行比较。通过CHISQ.INV.RT函数可以取得卡方临界值,这个函数的语法为CHISQ.INV.RT(probability, deg_freedom),括号里的两个参数分别指事先设定的显著水平和自由度。

在这个例子中,事先设定的显著水平为0.05,而2X3列联表的自由度为2。在检验统计量下方的储存格(下图里的I14)或任一空白的储存格里输入下面的语句:

=CHISQ.INV.RT(0.05, 2)

这个语句要求Excel计算当显著水平为0.05、自由度为2的时候,卡方分布右侧的临界值。语句输入完成后,按下Enter会传回数值5.99146。

最后,比较卡方检验统计量和临界值,因为9.90836 > 5.99146,所以拒绝虚无假设。换句话说,卡方独立性检验分析结果指出生理性别和政党支持倾向有关联性。

运用CHISQ.TEST函数取得概率

第二种评估卡方独立性检验分析结果的决策规则为获得特定卡方检验统计量的概率(p值)和显著水平的比较,当概率等于或小于显著水平的时候,即可拒绝生理性别和政党支持倾向没有关联的虚无假设。

通过CHISQ.TEST函数可以计算检验统计量概率,这个函数的语法为CHISQ.TEST(actual_range, expected_range),括号里的两个参数分别指观察次数的范围和期望次数的范围。在临界值下方的储存格(下图为I15)或任一空白的储存格输入下面的语句:

=CHISQ.TEST(B3:D4, H3:J4)

这个语句指出观察次数位于储存格B3到D4而期望次数位于储存格H3到J4,要求利用这2组数值计算出卡方检验统计量,并传回获得这个检验统计量的概率。语句输入完成后,按下Enter会传回概率0.00705。

最后,比较获得卡方检验统计量的概率和事先设定的显著水平,因为0.00705 < 0.05,所以拒绝虚无假设。也就是说,生理性别和政党支持倾向具有关联性,这样的结果和上面利用检验统计量和临界值比较的结果是相同的。

另外,CHISQ.DIST.RT函数也可以用来取得卡方分布右侧的概率,也就是获得一个特定卡方检验统计量的概率。虽然这个函数和CHISQ.TEST函数传回的结果是一样的,但两个函数的语法不一样。CHISQ.DIST.RT函数的语法为CHISQ.DIST.RT(x, deg_freedom),括号里的两个参数分别指卡方检验统计量和自由度。

用上面的例子来看,若改用CHISQ.DIST.RT函数来计算获得卡方检验统计量的概率,在刚才已计算出来的概率下方的储存格(下图的I16)里输入下面的语句:

=CHISQ.DIST.RT(I13, 2)

这个语句指出卡方检验统计量为储存格I13的9.90836,自由度为2,要求传回这个检验统计量的卡方分布右侧的概率。语句输入完成后,按下Enter会得到0.00705,和上面利用CHISQ.TEST函数所得到的概率一模一样。

虽然CHISQ.TESTCHISQ.DIST.RT函数都可以用来计算概率,且会得到相同的结果,但两个函数所需要的资讯并不相同。CHISQ.TEST函数需要观察次数和期望次数的资料范围,不需要卡方检验统计量,而CHISQ.DIST.RT函数需要卡方检验统计量和自由度,不需要观察和期望次数的资料范围。因此,要使用哪一个函数,需要视个人所持有的资讯来决定。

最后,不论使用哪一种决策规则,都可以得到相同的研究结论,您可以依据个人的喜好或对Excel的熟悉程度来决定使用的方法。下面整理出文章里提到的3个函数,可以更清楚地看到它们之间的差别:

函数
功用
CHISQ.INV.RT
利用显著水平和自由度取得卡方临界值
CHISQ.TEST
利用观察次数和期望次数的资料取得卡方检验统计量概率
CHISQ.DIST.RT
利用卡方检验统计量和自由度取得卡方检验统计量概率

以上为本篇文章对如何使用Excel执行卡方独立性检验的介绍,希望透过本篇文章,您学到了期望次数和检验统计量的计算方法以及如何利用函数取得相关数值来评估分析的结果。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号