问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Excel统计分析:列联表分析与卡方检验详解

创作时间:
作者:
@小白创作中心

Excel统计分析:列联表分析与卡方检验详解

引用
CSDN
1.
https://blog.csdn.net/sherrinzhang/article/details/142593094

在数据分析中,列联表分析与卡方检验是常用的方法之一,特别是在处理分类变量时。本文将详细介绍如何在Excel中进行列联表分析与卡方检验,帮助读者掌握这一实用的统计分析工具。

基本概念

  • 列联表:用于展示两个或多个分类变量之间频数关系的表格。——常用于描述性分析

  • 卡方检验:通过实际频数和期望频数(零假设为真情况下的频数),反映了观察频数与期望频数之间的差异程度,来评估两个变量是否独立,即是否有关联。——常用于假设检验

步骤

1. 建立列联表、零假设

首先建立零假设,假设两个分类变量没有关联,是独立的。

  • 零假设(H0):两个变量相互独立

  • 备择假设(H1):两个变量之间存在关联

2. 计算期望频数

期望频数:在零假设(两个变量独立)为真的情况下预期频数。

计算公式=(行总数×列总数)/总样本量

3. 计算卡方统计量

  • 卡方概率值(P值):在零假设为真的情况下,观察到当前统计量值或更极端情况的概率。

  • P值越小,表明观察到的数据与零假设之间的不一致性越大,因此提供了更强的证据来拒绝零假设。

  • 在卡方检验中,如果P值小于或等于事先设定的显著性水平(例如0.05),则通常拒绝零假设,认为两个变量之间存在关联。

  • 公式:CHISQ.TEST(实际频数范围,期望频数范围)

  • 卡方统计量:量化了观察频数与期望频数间的差异。

  • 卡方统计量的值越大,表明观察频数与期望频数之间的差异越大,从而提供了更多的证据来拒绝零假设。

  • 公式:SUM((实际频数范围-期望频数范围)^2/期望频数范围),按ctrl+shift+enter组合键完成

4. 确认显著性水平、自由度,计算临界值

  • 显著性水平:(通常用α表示)是你愿意犯第一类错误(错误地拒绝零假设)的概率。常见的显著性水平有0.05、0.01等。

  • 自由度=(行分类数−1)×(列分类数−1)

  • 临界值:excel中可以用CHISQ.INV 函数(返回具有给定概率的左尾x2 分布的区间点)查找。

- 计算临界值:CHISQ.INV(显著性水平,自由度)

5. 比较卡方统计量跟临界值,确认检验结果

当卡方统计量>临界值时,拒绝两种属性不相关的假设。

当卡方统计量<=临界值时,接受两种属性不相关的假设。

公式:IF(B15>B19, “拒绝两种属性不相关的假设”, “接受两种属性不相关的假设”)

案例分析

案例1:顾客地区和所选房子地板类型之间的相关性分析

案例2:学生专业选择与其性别是否存在关联

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号