小白学机器学习:Z检验(U检验,正态检验)详解
小白学机器学习:Z检验(U检验,正态检验)详解
Z检验是统计学中常用的一种方法,用于比较样本数据与总体均值之间的差异。本文将详细介绍Z检验的概念、原理、适用范围以及具体操作步骤,并通过实例帮助读者更好地理解这一重要统计学工具。
1. 什么是Z检验
Z检验,也称“U检验”,是一种统计测试方法,用于检验在零假设情况下测试数据能否接近正态分布。其主要目的是比较样本的平均值差异,也可以称为均值齐性检验。Z检验的前提假设是不同的样本都符合正态分布。
1.1 Z检验的别名
Z检验的别名包括:
- U检验 (U-test)
- 正态检验
1.2 维基百科定义
根据维基百科,Z检验是为了检验在零假设情况下测试数据能否接近正态分布的一种统计测试。根据中心极限定理,在大样本条件下许多测验可以被贴合为正态分布。在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。
1.3 定义提炼关键点
- 这是一种利用服从标准正态分布统计量的检验方法
- 要检测的变量符合正态分布 n
(u,δ) ,并不要求符合 标准正态分布 n(0,1) , 因为很多样本都符合正态分布,所以适应性很广 - 在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用
- 当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。样本数量较大时,Z检验和T检验都可以,但是Z检验更简单好用
1.4 Z检验量
Z检验量的计算公式为:
Z=(X-θ)/s = (X-u)/s
其中 u/θ 是均值,而s是样本的标准差std
2. Z检验量的构造
2.1 Z检验量
简单公式:Z=(X-θ)/s = (X-u)/s
U/Z与X的均值是等价的
U/Z的分位数或查相应的分布表比较方便
如果X符合正态分布,那么Z检验量= 标准分数Z=(X-θ)/s = (X-u)/s
其中 u/θ 是均值,而s是样本的标准差std
2.2 Z检验变量的构造
此处公式里都不是Xi 而是 X_=average(X)
因为Xi 符合正态分布 Xi N(u,δ)N(0,1)
所以很显然,average(X) 也符合正态分布,average(X) ~N(u,δ/✔n)。 因为average(X)的均值还是u,而average(X)的波动肯定比Xi要小得多,所以方差肯定是降低了=δ/✔n
Z检验量相当于构造了一个标准正态分布变量 Z=(X_-u) / (δ/✔n)
2.3 下面是各种百科写的构造过程
Z检验量的构造 和 检验原理
2.4 Z检验量的核心参数
2.4.1 原始公式
Z=average(x)-u/δ
有点像 标准化正态分布的公式,Zi=xi-u/δ ,但是这里用的不是xi而是均值average(x)
但是要特意写成Z=average(x)-u/(δ/✔n) 原因?
就是✔n 是公式变换的结果,因为x ~ N(u,δ) ,average(x) ~ N(u,δ/✔n)
是只取了总体数里的n个样本,核心变量是 average(x),整个方法都是评价和比较的均值!!!,核心就是均值之间的差异
2.4.2 正式公式
Z检验要求大样本的原因,因为总体方差往往不可知,so需要一个大样本的样本方差)
但是总体方差变不好获得,那总体均值就那么好得?
Z检验的公式
Z=(X_-u) / (δ/✔n)~N(0,1)
Z=(X1_-X2_) / ✔(s1/n1+s2/n2)
2.4.3 核心参数
- 平均值 : 总体均值u ,样本均值δ
- 样本标准差: s =std 或者双样本检测时 s1 和s2
- 样本数量: n,或者双样本检测时 2个 n1 和n2
3. Z分布
3.1 Z分布的定义
Z分布,全称费歇耳(Fisher)Z分布,亦称费歇耳方差比分布。从图形上看,特别像正态分布,但是它是离散的,不是连续的。
3.2 Z分布与正态分布的比较
Z分布是统计学中常用的一种离散概率分布,通常用于计算样本数据与总体均值之间的差异。它是通过将样本数据的均值与总体均值之差除以标准差来得到的。而正态分布是一种连续概率分布,具有钟形曲线形状,广泛用于自然现象和实验数据的概率分布。
4. Z检验适用范围/ 情况
Z检验是否合适先要看Z分布是否适用当下情况
4.1 Z分布的适用范围/ 情况
Z分布的准确性取决于样本数据的数量和总体分布的正态性。在样本数量较少或总体分布非正态时,Z分布的准确性会受到影响。Z分布的计算方法只适用于均值为整数且标准差为小数的情形。如果均值或标准差不是整数,或者样本数量较少,则需要使用其他计算方法。
4.2 Z检验的适用情况
- n>30大样本情况,适合Z检验和T检验
- 否则只适合T检验
4.3 具体适用范围/情况,比较的对象
4.3.1 单样本Z检验
单样本Z检验:比较一组样本和某数值(比如理想中的总体平均值)的平均值的差异
原假设h0: average(x)=m
4.3.2 两样本z检验
两样本/双样本z检验,比较一组样本和另外一组样本数据的平均值的差异
原假设h0: average(x1)= average(x2)
5. 检验原理
5.1 检验原理
5.1.0 建立h0建设和显著度α ,这个模型
对比均值/差值对比:
置信水平:95% 即对原假设H0有95%的把握
假设检验,H0和h1
5.1.1 先计算Z检验值
Z检验的公式
Z=(X_-u) / (δ/✔n)~N(0,1)
Z=(X1_-X2_) / ✔(s1/n1+s2/n2)
5.1.2 显著度α =置信度 =概率 =曲线下外侧面积
显著度α
置信度
概率
曲线下外侧面积
5.1.3 看要求得双侧还是单侧检验?
单侧检验,右侧/左侧
双侧检验
如果是双边检验,就比较查表的 Z(α/2)
如果是单边检验,就比较查表的 Z(α)
5.1.4 得到Z值后,联合显著度α, 查表得 查表Z值,然后比较
就是根据 显著度α,
比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0
5.1.5 比较P值和α,然后判断
置信水平:95% 即对原假设H0有95%的把握
假设检验,H0和h1
比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0
5.2 检验原理说明:自百度百科
6. Z检验得实际操作查表等
6.1 Z检验的边界值查表原理
可见Z分布是一个离散图形,类正态分布
当Z值很大得时候,对应的p就会很小,也就是曲线下面右边的面积会越小,也就是发生的概率越小就越要拒绝原假设h0
6.2 计算Z检验:手动查表
6.2.1 先确定显著度水平 α
如果是双边检验,是查Z( α/2)
如果是单边检验,是查Z( α)
6.2.2 已知Z值和 α后,查表获得p值,然后进行比较
Z值表
纵坐标是Z值,Z的整数部分
横坐标是也是Z值,Z的小数部分
查表需要结合整数和小数分布,分开查
交叉处即是P
6.2.3 比较p和显著度水平 α
如果p<α,则拒绝原假设
算出来得Z值越大,查表得p值越小,越要拒绝,两者相等的原假设
6.2.4 查表
在此负Z得分表的平均值左侧找到值 。z的表项表示z的钟形曲线下方的区域。z表中的负分数对应于小于平均值的值。
在此z表中的平均值右边找到值。z的表项表示z的钟形曲线下方的区域。Z表中的正分数对应于大于平均值的值。
7. 例题
7.1 先确定检验方式:双样本Z检验
样本1:50个
样本2:50个
7.2 题目已知样本均值和方差
见表
7.3 计算Z值
参考EXCEL公式
7.4 查表获得P值
第1个,因为 |Z|=0.658<1.96,所以前测两组差异不显著。
第2个,因为 |Z|=2.16>1.96,所以后测两组差异显著。
7.4.1 第1个Z值查表p
z=0.658 查表 先z=0.66
纵列查0.6
横列找0.06
查得p=0.7454 ,因为显著度是0.05,且是双边检验, 0.7454<95%,因此不是小概率事件,而接受原假设h0
7.4.2 第2个Z值查表p
2.16 查表的
z=2.16 查表
纵列查2.1
横列找0.06
查得p=0.9846 ,因为显著度是0.05,且是双边检验, 0.9846>95%,因此是小概率事件,而拒绝原假设h0
8. 参考文章等
SPSSPRO官方文章
统计学假设检验——均值Z检验详解,入门必看! - 知乎1、简介z 检验一般用于比较样本平均值差异性。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 对比平均值的差异性,包括一组数据与某数值的差异性或两组数据的平均值差异性,…
https://zhuanlan.zhihu.com/p/635888184