问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

卡方检验:检验变量之间相关性的实用指南

创作时间:
作者:
@小白创作中心

卡方检验:检验变量之间相关性的实用指南

引用
CSDN
1.
https://blog.csdn.net/weixin_41506107/article/details/146135405

卡方检验是一种用途广泛的假设检验方法,主要用于检验两个分类变量之间的独立性或检验观测频数与期望频数是否一致。本文将详细介绍卡方检验的原理、实施步骤以及如何使用Python进行实现。

一、概念

卡方检验是一种用途很广的假设检验方法,一般用于检验两个分类变量之间的独立性或者检验观测频数与期望频数是否一致。其原理是统计样本的实际频数与期望频数之间的偏离程度——卡方值。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

对于卡方检验的有效性,每个单元格的期望频数应该达到一定的数量,通常至少为5。如果期望值太小,卡方检验可能不准确,此时应考虑使用Fisher's Exact Test或其他方法。

二、卡方检验的实施步骤

(一)建立假设

  • 原假设(H₀):变量之间独立或观测分布与理论分布一致。
  • 备择假设(H₁):变量之间不独立或观测分布与理论分布不一致。

(二)计算卡方值、自由度和p值

  • P值:P值表示在原假设(即分类变量之间是独立的)为真的情况下,观察到χ²统计量或更极端值的概率。如果P值小于预定的显著性水平(比如0.05),我们就拒绝零假设,认为分类变量之间是相关的。
  • 自由度:卡方检验的自由度是由分类变量的类别数量决定的,计算公式为:(行数-1) x (列数-1)。

(三)计算卡方统计量

计算分2个场景:

  1. 判断两个分类变量是否相互独立

    应用场景:例如,检验性别与是否吸烟之间的关系

    1. 构建列联表(Contingency Table)。
    2. 计算期望频数。
    3. 计算卡方统计量:

    其中,Oi是观测频数,Ei 是期望频数。

    1. 根据卡方统计量和自由度,查找卡方分布表,确定p值。
  2. 拟合优度检验(Goodness-of-Fit Test)

    检验观测频数与期望频数是否一致,判断样本分布是否符合某种理论分布。例如,检验掷骰子结果是否均匀分布

    1. 计算期望频数
    2. 计算卡方统计量:

    1. 根据卡方统计量和自由度,查找卡方分布表,确定p值。

三、数据解读

p值如果很小,比如p=0.05,那么我们有95%的把握认为原假设不成立,两个变量之间不独立,存在相关性。或者,观测分布与理论分布不一致。

四、Python代码实现

简易版

from scipy.stats import chi2_contingency

# 构建列联表
data = [[80, 50], [60, 40]]

# 执行卡方检验
chi2, p, dof, expected = chi2_contingency(data)

print("卡方统计量:", chi2)
print("p值:", p)
print("自由度:", dof)
print("期望频数:", expected)

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号