小白学机器学习:Z检验详解
创作时间:
作者:
@小白创作中心
小白学机器学习:Z检验详解
引用
CSDN
1.
https://blog.csdn.net/xuemanqianshan/article/details/137472761
Z检验是一种统计学方法,用于比较样本的平均值差异。它基于正态分布理论,通过计算Z检验量来判断样本均值与总体均值或两个样本均值之间的差异是否显著。本文将详细介绍Z检验的概念、原理、适用范围以及具体操作步骤。
什么是Z检验
Z检验,也称“U检验”,是一种统计测试方法,用于检验在零假设情况下测试数据能否接近正态分布。根据中心极限定理,在大样本条件下,许多测验可以被贴合为正态分布。
Z检验的别名
- U检验 (U-test)
- 正态检验
维基百科定义
Z检验是为了检验在零假设情况下测试数据能否可以接近正态分布的一种统计测试。在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。
百度百科定义
Z检验(Z Test)又叫U检验。由于实际问题中大多数随机变量服从或近似服从正态分布,U作为检验统计量与X的均值是等价的,且计算U的分位数或查相应的分布表比较方便。
定义提炼关键点
- 这是一种利用服从标准正态分布统计量的检验方法
- 要检测的变量符合正态分布 n
(u,δ) ,并不要求符合 标准正态分布 n(0,1) , 因为很多样本都符合正态分布,所以适应性很广 - 在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。
- 当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。样本数量较大时,Z检验和T检验都可以,但是Z检验更简单好用。
Z检验量的构造
Z检验量的公式
Z检验量的计算公式为:Z=(X-θ)/s = (X-u)/s
其中 u/θ 是均值,而s是样本的标准差std
Z检验变量的构造
- 此处公式里都不是Xi 而是 X_=average(X)
- 因为Xi 符合正态分布 Xi ~N(u,δ)
- 所以很显然,average(X) 也符合正态分布,average(X) ~N(u,δ/✔n)。 因为average(X)的均值还是u,而average(X)的波动肯定比Xi要小得多,所以方差肯定是降低了=δ/✔n
- Z检验量相当于构造了一个标准正态分布变量 Z=(X_-u) / (δ/✔n)~N(0,1)
Z检验量的核心参数
- 平均值 : 总体均值u ,样本均值δ
- 样本标准差: s =std 或者双样本检测时 s1 和s2
- 样本数量: n,或者双样本检测时 2个 n1 和n2
Z分布
Z分布的定义
Z分布,全称费歇耳(Fisher)Z分布,亦称费歇耳方差比分布。从图形上看,特别像正态分布,但是它是离散的,不是连续的。
Z分布与正态分布的比较
- Z分布是统计学中常用的一种离散概率分布,通常用于计算样本数据与总体均值之间的差异。它是通过将样本数据的均值与总体均值之差除以标准差来得到的。
- 而正态分布是一种连续概率分布,具有钟形曲线形状,广泛用于自然现象和实验数据的概率分布。
Z检验适用范围/ 情况
Z分布的适用范围/ 情况
- Z分布的准确性取决于样本数据的数量和总体分布的正态性。在样本数量较少或总体分布非正态时,Z分布的准确性会受到影响。
- Z分布的计算方法只适用于均值为整数且标准差为小数的情形。如果均值或标准差不是整数,或者样本数量较少,则需要使用其他计算方法。
Z检验的适用情况
- n>30大样本情况,适合Z检验和T检验
- 否则只适合T检验
具体适用范围/情况,比较的对象
- 单样本Z检验:比较一组样本和某数值(比如理想中的总体平均值)的平均值的差异
- 原假设h0: average(x)=m
- 两样本z检验,比较一组样本和另外一组样本数据的平均值的差异
- 原假设h0: average(x1)= average(x2)
检验原理
检验原理
- 对比均值/差值对比:
- 置信水平:95% 即对原假设H0有95%的把握
- 假设检验,H0和h1
计算Z检验值
- Z检验的公式
- Z=(X_-u) / (δ/✔n)~N(0,1)
- Z=(X1_-X2_) / ✔(s1/n1+s2/n2)
显著度α
- 显著度α
- 置信度
- 概率
- 曲线下外侧面积
单侧还是双侧检验
- 单侧检验,右侧/左侧
- 双侧检验
- 如果是双边检验,就比较查表的 Z(α/2)
- 如果是单边检验,就比较查表的 Z(α)
查表获得Z值
- 就是根据 显著度α,
- 比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0
比较P值和α
- 置信水平:95% 即对原假设H0有95%的把握
- 假设检验,H0和h1
- 比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0
Z检验的实际操作查表等
Z检验的边界值查表原理
- 可见Z分布是一个离散图形,类正态分布
- 当Z值很大的时候,对应的p就会很小,也就是曲线下面右边的面积会越小,也就是发生的概率越小就越要拒绝原假设h0
计算Z检验:手动查表
- 先确定显著度水平 α
- 如果是双边检验,是查Z( α/2)
- 如果是单边检验,是查Z( α)
- 已知Z值和 α后,查表获得p值,然后进行比较
- Z值表
- 纵坐标是Z值,Z的整数部分
- 横坐标是也是Z值,Z的小数部分
- 查表需要结合整数和小数分布,分开查
- 交叉处即是P
- 比较p和显著度水平 α
- 如果p<α,则拒绝原假设
- 算出来得Z值越大,查表得p值越小,越要拒绝,两者相等的原假设
- 在此负Z得分表的平均值左侧找到值 。z的表项表示z的钟形曲线下方的区域。z表中的负分数对应于小于平均值的值。
- 在此z表中的平均值右边找到值。z的表项表示z的钟形曲线下方的区域。Z表中的正分数对应于大于平均值的值。
例题
确定检验方式:双样本Z检验
- 样本1:50个
- 样本2:50个
题目已知样本均值和方差
见表
计算Z值
参考EXCEL公式
查表获得P值
- 第1个,因为 |Z|=0.658<1.96,所以前测两组差异不显著。
- 第2个,因为 |Z|=2.16>1.96,所以后测两组差异显著。
第1个Z值查表p
- z=0.658 查表 先z=0.66
- 纵列查0.6
- 横列找0.06
- 查得p=0.7454 ,因为显著度是0.05,且是双边检验, 0.7454<95%,因此不是小概率事件,而接受原假设h0
第2个Z值查表p
- 2.16 查表的
- z=2.16 查表
- 纵列查2.1
- 横列找0.06
- 查得p=0.9846 ,因为显著度是0.05,且是双边检验, 0.9846>95%,因此是小概率事件,而拒绝原假设h0
热门推荐
“李白《梅花谷》”真相大白:系现代人拼凑恶搞
教师年度总结秘籍大公开!
西北饮食文化:中华饮食文明的源头与创新库
花钱如流水的三大生肖女,一个挥霍,一个败家,一个享乐
大乐透24146期:龙头凤尾分析与理性投资攻略
枸杞龙眼茶并非“护眼神器”,科学预防白内障这样做
让孩子爱上刷牙:0-12岁牙刷选购与习惯培养指南
2024欧洲杯四强出炉:西班牙全胜领跑,法国荷兰状态回升
七夕表白:用最美的语言,诉说心中的悸动
北魏《司马景和墓志铭》:严谨结构展现楷书艺术巅峰
吉林松花湖:春赏花、夏戏水、秋观叶、冬玩雪
如何打造成功的视频号矩阵?运营策略与技巧
屋企天花漏水怎么办?原因与处理途径全解析
“万国建筑博物馆”鼓浪屿:8处代表性建筑全解析
湖南省中西医结合医院发布:老年人营养均衡饮食指南
板豆腐:高蛋白低热量,5大功效助力健康减脂
国家卫健委发布:尿酸偏高患者这样吃蔬菜最安全
唤醒和解锁 iPhone
故宫的介绍和历史
王医师揭秘:三七粉真的能治高血压吗?
PS图像翻转教程:轻松掌握水平和垂直翻转技巧
北京两机场调整多条公交线路,新增夜班服务便利旅客
电梯维护管理_电梯维保的及时性如何提高物业管理的工作效率?
党参的几大功效与作用,医生:这几类人群需禁忌,否则越喝越伤身
从冷藏到保养:一文掌握冰箱正确使用方法
东京都立大学研究:中年夫妻分床睡的幸福秘诀
龙胆泻肝汤治疗肝胆湿热,十味中药协同增效
冬季避寒圣地:格鲁吉亚温泉之旅
50万投资攻略:退休后的稳赚之道
M36螺栓选购攻略:强度等级、材质、工具全解析