问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

小白学机器学习:Z检验详解

创作时间:
作者:
@小白创作中心

小白学机器学习:Z检验详解

引用
CSDN
1.
https://blog.csdn.net/xuemanqianshan/article/details/137472761

Z检验是统计学中常用的一种假设检验方法,主要用于比较样本均值与总体均值之间的差异。本文将详细介绍Z检验的基本概念、原理、适用范围以及具体操作步骤,帮助读者更好地理解这一统计学工具。

1 什么是Z检验

Z检验,也称“U检验”,是一种统计测试方法,用于检验在零假设情况下测试数据能否接近正态分布。根据中心极限定理,在大样本条件下许多测验可以被贴合为正态分布。Z检验的适用条件是样本数据符合正态分布,且样本量较大(通常大于30)。

1.1 Z检验的别名

Z检验又称为U检验或正态检验,其目的是比较样本的平均值差异,也可以称为均值齐性检验。这种检验方法基于样本数据符合正态分布的前提假设。

1.2 Z检验的定义

Z检验是一种利用服从标准正态分布统计量的检验方法。当样本数据符合正态分布时,可以通过计算Z检验量来判断样本均值与总体均值之间的差异是否显著。Z检验的核心优势在于其临界值在不同显著性水平下保持不变,因此比临界值标准不同的学生t检验更简单易用。当实际标准差未知且样本容量较小时(小于等于30),学生t检验更为适用。

1.3 Z检验量的计算公式

Z检验量的计算公式为:Z = (X - θ) / s = (X - u) / s,其中u/θ表示均值,s表示样本的标准差。这个公式表明,Z检验量相当于构造了一个标准正态分布变量,用于评估样本均值与总体均值之间的差异。

2 Z检验量的构造

Z检验量的构造过程涉及将样本均值与总体均值之差除以样本标准差,从而得到一个服从标准正态分布的统计量。具体来说:

  • 如果样本数据Xi符合正态分布Xi ~ N(u, δ),那么样本均值average(X)也符合正态分布,即average(X) ~ N(u, δ/√n)。
  • Z检验量的构造公式为Z = (average(X) - u) / (δ/√n)或Z = (X1_ - X2_) / √(s1/n1 + s2/n2)。

2.4 Z检验量的核心参数

Z检验的核心参数包括:

  • 平均值:总体均值u和样本均值δ
  • 样本标准差:s(单样本)或s1和s2(双样本)
  • 样本数量:n(单样本)或n1和n2(双样本)

3 Z分布

Z分布,全称费歇耳(Fisher)Z分布,是一种离散概率分布,其图形类似于正态分布但实际上是离散的。Z分布主要用于计算样本数据与总体均值之间的差异,其计算方法只适用于均值为整数且标准差为小数的情形。

3.2 Z分布与正态分布的比较

Z分布与正态分布的主要区别在于:

  • Z分布是离散概率分布,而正态分布是连续概率分布。
  • Z分布主要用于计算样本数据与总体均值之间的差异,而正态分布广泛应用于自然现象和实验数据的概率分布。

4 Z检验的适用范围

Z检验的适用性取决于样本数据的数量和总体分布的正态性。在样本数量较少或总体分布非正态时,Z检验的准确性会受到影响。具体来说:

  • 当样本量大于30时,适合使用Z检验和T检验。
  • 当样本量小于等于30时,只适合使用T检验。

4.3 具体适用范围

4.3.1 单样本Z检验

单样本Z检验用于比较一组样本和某数值(比如理想中的总体平均值)的平均值差异。原假设H0为样本均值等于指定数值。

4.3.2 两样本Z检验

两样本Z检验用于比较两组样本数据的平均值差异。原假设H0为两组样本均值相等。

5 Z检验的原理

Z检验的基本原理包括以下几个步骤:

  1. 建立原假设H0和备择假设H1,设定显著性水平α(通常为0.05)。
  2. 计算Z检验量,即样本均值与总体均值之差除以标准误差。
  3. 根据显著性水平α和检验类型(单侧或双侧)查Z分布表,获得临界值。
  4. 比较计算得到的Z值与查表得到的临界值,判断是否拒绝原假设。

5.1.2 显著度α的解释

显著度α表示在原假设为真时,观察到当前样本结果或更极端结果的概率。通常将α设为0.05,意味着有5%的概率错误地拒绝原假设。

5.1.3 单侧检验与双侧检验

  • 单侧检验关注的是样本均值大于或小于总体均值的情况。
  • 双侧检验关注的是样本均值与总体均值的任何差异。

5.1.4 判断规则

如果计算得到的Z值大于查表得到的临界值Z(α/2)(双侧检验)或Z(α)(单侧检验),则拒绝原假设;否则,接受原假设。

6 Z检验的实际操作

6.1 查表原理

Z分布表是一个离散图形,类似于正态分布。当Z值很大时,对应的p值很小,意味着发生的概率很低,从而可能拒绝原假设。

6.2 手动查表步骤

  1. 确定显著性水平α。
  2. 根据Z值的整数部分和小数部分在Z分布表中查找对应的p值。
  3. 比较查得的p值与显著性水平α,判断是否拒绝原假设。



7 实例分析

7.1 检验方式选择

考虑一个双样本Z检验的例子,其中样本1包含50个数据点,样本2也包含50个数据点。

7.2 已知条件

假设已知两个样本的均值和方差,具体数值见表。

7.3 计算Z值

使用Excel公式计算Z值。

7.4 查表获得P值

7.4.1 第1个Z值

  • Z = 0.658
  • 查表得p = 0.7454
  • 因为p > 0.05(显著性水平),接受原假设H0

7.4.2 第2个Z值

  • Z = 2.16
  • 查表得p = 0.9846
  • 因为p < 0.05(显著性水平),拒绝原假设H0

通过这个实例,我们可以看到如何根据计算得到的Z值和查表得到的p值来判断样本均值之间的差异是否显著。

参考文献

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号