小白学机器学习:Z检验详解
小白学机器学习:Z检验详解
Z检验是统计学中常用的一种假设检验方法,主要用于比较样本均值与总体均值之间的差异。本文将详细介绍Z检验的基本概念、原理、适用范围以及具体操作步骤,帮助读者更好地理解这一统计学工具。
1 什么是Z检验
Z检验,也称“U检验”,是一种统计测试方法,用于检验在零假设情况下测试数据能否接近正态分布。根据中心极限定理,在大样本条件下许多测验可以被贴合为正态分布。Z检验的适用条件是样本数据符合正态分布,且样本量较大(通常大于30)。
1.1 Z检验的别名
Z检验又称为U检验或正态检验,其目的是比较样本的平均值差异,也可以称为均值齐性检验。这种检验方法基于样本数据符合正态分布的前提假设。
1.2 Z检验的定义
Z检验是一种利用服从标准正态分布统计量的检验方法。当样本数据符合正态分布时,可以通过计算Z检验量来判断样本均值与总体均值之间的差异是否显著。Z检验的核心优势在于其临界值在不同显著性水平下保持不变,因此比临界值标准不同的学生t检验更简单易用。当实际标准差未知且样本容量较小时(小于等于30),学生t检验更为适用。
1.3 Z检验量的计算公式
Z检验量的计算公式为:Z = (X - θ) / s = (X - u) / s,其中u/θ表示均值,s表示样本的标准差。这个公式表明,Z检验量相当于构造了一个标准正态分布变量,用于评估样本均值与总体均值之间的差异。
2 Z检验量的构造
Z检验量的构造过程涉及将样本均值与总体均值之差除以样本标准差,从而得到一个服从标准正态分布的统计量。具体来说:
- 如果样本数据Xi符合正态分布Xi ~ N(u, δ),那么样本均值average(X)也符合正态分布,即average(X) ~ N(u, δ/√n)。
- Z检验量的构造公式为Z = (average(X) - u) / (δ/√n)或Z = (X1_ - X2_) / √(s1/n1 + s2/n2)。
2.4 Z检验量的核心参数
Z检验的核心参数包括:
- 平均值:总体均值u和样本均值δ
- 样本标准差:s(单样本)或s1和s2(双样本)
- 样本数量:n(单样本)或n1和n2(双样本)
3 Z分布
Z分布,全称费歇耳(Fisher)Z分布,是一种离散概率分布,其图形类似于正态分布但实际上是离散的。Z分布主要用于计算样本数据与总体均值之间的差异,其计算方法只适用于均值为整数且标准差为小数的情形。
3.2 Z分布与正态分布的比较
Z分布与正态分布的主要区别在于:
- Z分布是离散概率分布,而正态分布是连续概率分布。
- Z分布主要用于计算样本数据与总体均值之间的差异,而正态分布广泛应用于自然现象和实验数据的概率分布。
4 Z检验的适用范围
Z检验的适用性取决于样本数据的数量和总体分布的正态性。在样本数量较少或总体分布非正态时,Z检验的准确性会受到影响。具体来说:
- 当样本量大于30时,适合使用Z检验和T检验。
- 当样本量小于等于30时,只适合使用T检验。
4.3 具体适用范围
4.3.1 单样本Z检验
单样本Z检验用于比较一组样本和某数值(比如理想中的总体平均值)的平均值差异。原假设H0为样本均值等于指定数值。
4.3.2 两样本Z检验
两样本Z检验用于比较两组样本数据的平均值差异。原假设H0为两组样本均值相等。
5 Z检验的原理
Z检验的基本原理包括以下几个步骤:
- 建立原假设H0和备择假设H1,设定显著性水平α(通常为0.05)。
- 计算Z检验量,即样本均值与总体均值之差除以标准误差。
- 根据显著性水平α和检验类型(单侧或双侧)查Z分布表,获得临界值。
- 比较计算得到的Z值与查表得到的临界值,判断是否拒绝原假设。
5.1.2 显著度α的解释
显著度α表示在原假设为真时,观察到当前样本结果或更极端结果的概率。通常将α设为0.05,意味着有5%的概率错误地拒绝原假设。
5.1.3 单侧检验与双侧检验
- 单侧检验关注的是样本均值大于或小于总体均值的情况。
- 双侧检验关注的是样本均值与总体均值的任何差异。
5.1.4 判断规则
如果计算得到的Z值大于查表得到的临界值Z(α/2)(双侧检验)或Z(α)(单侧检验),则拒绝原假设;否则,接受原假设。
6 Z检验的实际操作
6.1 查表原理
Z分布表是一个离散图形,类似于正态分布。当Z值很大时,对应的p值很小,意味着发生的概率很低,从而可能拒绝原假设。
6.2 手动查表步骤
- 确定显著性水平α。
- 根据Z值的整数部分和小数部分在Z分布表中查找对应的p值。
- 比较查得的p值与显著性水平α,判断是否拒绝原假设。
7 实例分析
7.1 检验方式选择
考虑一个双样本Z检验的例子,其中样本1包含50个数据点,样本2也包含50个数据点。
7.2 已知条件
假设已知两个样本的均值和方差,具体数值见表。
7.3 计算Z值
使用Excel公式计算Z值。
7.4 查表获得P值
7.4.1 第1个Z值
- Z = 0.658
- 查表得p = 0.7454
- 因为p > 0.05(显著性水平),接受原假设H0
7.4.2 第2个Z值
- Z = 2.16
- 查表得p = 0.9846
- 因为p < 0.05(显著性水平),拒绝原假设H0
通过这个实例,我们可以看到如何根据计算得到的Z值和查表得到的p值来判断样本均值之间的差异是否显著。
参考文献
- SPSSPRO官方文章
- 统计学假设检验——均值Z检验详解,入门必看! - 知乎
- https://zhuanlan.zhihu.com/p/635888184