卡方检验:检验变量之间相关性的实用指南
创作时间:
作者:
@小白创作中心
卡方检验:检验变量之间相关性的实用指南
引用
CSDN
1.
https://blog.csdn.net/weixin_41506107/article/details/146135405
卡方检验是一种用途广泛的假设检验方法,主要用于检验两个分类变量之间的独立性或检验观测频数与期望频数是否一致。本文将详细介绍卡方检验的原理、实施步骤以及如何使用Python进行实现。
一、概念
卡方检验是一种用途很广的假设检验方法,一般用于检验两个分类变量之间的独立性或者检验观测频数与期望频数是否一致。其原理是统计样本的实际频数与期望频数之间的偏离程度——卡方值。如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
对于卡方检验的有效性,每个单元格的期望频数应该达到一定的数量,通常至少为5。如果期望值太小,卡方检验可能不准确,此时应考虑使用Fisher's Exact Test或其他方法。
二、卡方检验的实施步骤
(一)建立假设
- 原假设(H₀):变量之间独立或观测分布与理论分布一致。
- 备择假设(H₁):变量之间不独立或观测分布与理论分布不一致。
(二)计算卡方值、自由度和p值
- P值:P值表示在原假设(即分类变量之间是独立的)为真的情况下,观察到χ²统计量或更极端值的概率。如果P值小于预定的显著性水平(比如0.05),我们就拒绝零假设,认为分类变量之间是相关的。
- 自由度:卡方检验的自由度是由分类变量的类别数量决定的,计算公式为:(行数-1) x (列数-1)。
(三)计算卡方统计量
计算分2个场景:
判断两个分类变量是否相互独立
应用场景:例如,检验性别与是否吸烟之间的关系
- 构建列联表(Contingency Table)。
- 计算期望频数。
- 计算卡方统计量:
其中,Oi是观测频数,Ei 是期望频数。
- 根据卡方统计量和自由度,查找卡方分布表,确定p值。
拟合优度检验(Goodness-of-Fit Test)
检验观测频数与期望频数是否一致,判断样本分布是否符合某种理论分布。例如,检验掷骰子结果是否均匀分布
- 计算期望频数
- 计算卡方统计量:
- 根据卡方统计量和自由度,查找卡方分布表,确定p值。
三、数据解读
p值如果很小,比如p=0.05,那么我们有95%的把握认为原假设不成立,两个变量之间不独立,存在相关性。或者,观测分布与理论分布不一致。
四、Python代码实现
简易版
from scipy.stats import chi2_contingency
# 构建列联表
data = [[80, 50], [60, 40]]
# 执行卡方检验
chi2, p, dof, expected = chi2_contingency(data)
print("卡方统计量:", chi2)
print("p值:", p)
print("自由度:", dof)
print("期望频数:", expected)
本文原文来自CSDN
热门推荐
八十岁老年人正常血压标准及注意事项
取绰号属于霸凌吗?答案在此!
名副其实的意思是啥?了解“名副其实”的含义和用法
银离子抗菌剂的作用与功效
原股东承担责任后如何追偿
春熙路:成都的购物与美食天堂
穿越75年,带你看锦江地标——春熙路
华中师范大学赵蕴杰教授:希望本书成为你探索凝聚态与生物物理世界的良师益友
选车指南:帮你找到最适合的座驾
安卓USB摄像头采集软件使用指南及推荐
牛和兔属相合不合 牛和兔的属相在一起合不合
正宗英德红茶的独特口感与风味解析
如何有效规避汇率风险?这种规避方法有哪些适用范围?
《西游记》文殊菩萨被浸泡三天:一场精心策划的苦情戏
降血脂有效5种药
精神内耗是什么意思?深度解析其表现、成因及应对方法
诗人袁枚笔下最美的一首诗,短短20字,便写出了最美的春天
中气不足是什么引起的
新能源汽车哪些地方该升级?看大连理工学子怎么说
动力电池系统结构设计及成组技术优化
航空航天应用中使用哪些金属材料?
破军星入命宫:性格特征与命运解析
王维《老将行》:一位老将的智勇与不平
工作目标管理系统怎么提升员工积极性?
小六壬卦解:古代占卜术的智慧与实践
火鸡面太辣?三养食品:远不及小米辣的三分之一!
阿里拍卖破产清算拍卖的风险及个人破产债务处理指南
运动对颈椎炎有什么好处
小孩脑门摔伤应如何处理
羽毛球球拍拍柄尺寸对照表图,羽毛球拍各种参数详解