卡方检验:检验变量之间相关性的实用指南
创作时间:
作者:
@小白创作中心
卡方检验:检验变量之间相关性的实用指南
引用
CSDN
1.
https://blog.csdn.net/weixin_41506107/article/details/146135405
卡方检验是一种用途广泛的假设检验方法,主要用于检验两个分类变量之间的独立性或检验观测频数与期望频数是否一致。本文将详细介绍卡方检验的原理、实施步骤以及如何使用Python进行实现。
一、概念
卡方检验是一种用途很广的假设检验方法,一般用于检验两个分类变量之间的独立性或者检验观测频数与期望频数是否一致。其原理是统计样本的实际频数与期望频数之间的偏离程度——卡方值。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
对于卡方检验的有效性,每个单元格的期望频数应该达到一定的数量,通常至少为5。如果期望值太小,卡方检验可能不准确,此时应考虑使用Fisher's Exact Test或其他方法。
二、卡方检验的实施步骤
(一)建立假设
- 原假设(H₀):变量之间独立或观测分布与理论分布一致。
- 备择假设(H₁):变量之间不独立或观测分布与理论分布不一致。
(二)计算卡方值、自由度和p值
- P值:P值表示在原假设(即分类变量之间是独立的)为真的情况下,观察到χ²统计量或更极端值的概率。如果P值小于预定的显著性水平(比如0.05),我们就拒绝零假设,认为分类变量之间是相关的。
- 自由度:卡方检验的自由度是由分类变量的类别数量决定的,计算公式为:(行数-1) x (列数-1)。
(三)计算卡方统计量
计算分2个场景:
判断两个分类变量是否相互独立
应用场景:例如,检验性别与是否吸烟之间的关系
- 构建列联表(Contingency Table)。
- 计算期望频数。
- 计算卡方统计量:
其中,Oi是观测频数,Ei 是期望频数。
- 根据卡方统计量和自由度,查找卡方分布表,确定p值。
拟合优度检验(Goodness-of-Fit Test)
检验观测频数与期望频数是否一致,判断样本分布是否符合某种理论分布。例如,检验掷骰子结果是否均匀分布
- 计算期望频数
- 计算卡方统计量:
- 根据卡方统计量和自由度,查找卡方分布表,确定p值。
三、数据解读
p值如果很小,比如p=0.05,那么我们有95%的把握认为原假设不成立,两个变量之间不独立,存在相关性。或者,观测分布与理论分布不一致。
四、Python代码实现
简易版
from scipy.stats import chi2_contingency
# 构建列联表
data = [[80, 50], [60, 40]]
# 执行卡方检验
chi2, p, dof, expected = chi2_contingency(data)
print("卡方统计量:", chi2)
print("p值:", p)
print("自由度:", dof)
print("期望频数:", expected)
本文原文来自CSDN
热门推荐
安装软件出错怎么办?10个实用修复方法助你轻松解决
如何从过去的工作经历中提取关键技能,为未来职业发展做准备
原神伊斯塔露和天理:时间之执政与至高法则的交织
没有会计从业资格证可以考注册会计师吗
李连杰经典动作片精武英雄深度解析及拍摄年份探讨
如何套用别人的源码
手帐的灵感来源有哪些
东京都:日本首都的过去与现在
2024年如何防止用户信息在金融借贷过程中被泄露或滥用?
工资个人所得税怎么计算
驾照申领、审验,先过“三力”测试!转给爸妈看看~
有研究发现,每天适度运动11分钟可将早死风险降低20%!
Excel中突出重点数据的多种方法
高分灾难巨制,《勇往直前》生存中融入牺牲,讲述平凡人的不平凡
“帝王之相”:马戛尔尼使团成员笔下的乾隆皇帝
腰椎盘突出睡姿指南:仰卧、侧卧还是小燕飞?
秋天,去徒步吧,大自然会给你答案
卢向华:与AI合作,哪些人获益更多?人机协作研究的几点启示
数字芯片设计验证经验分享:将ASIC IP核移植到FPGA上的关键考量
如何学习跆拳道
探秘云南风味:传统过桥米线制作秘籍
电源适配器上的标识都是什么意思
一文看懂!医保统筹支付、个人自付、个人自费……都是啥意思?
sklearn【AUC-ROC】原理,以及绘制ROC曲线!
当代社恐青年的社交解药:跟AI唠嗑上瘾
八字喜神忌神仇神详解:命理学中的财富健康与命运
被横扫次数最多的超巨!奥尼尔被横扫的6次系列赛表现如何?
二十四史中,唯独记载唐朝的史书有两部,它们是怎么来的?
单元测试卷如何复盘
善于伪装的鸟类-茶色蟆口鸱