正态性检验(Shapiro-Wilk test检验和kstest检验)
创作时间:
作者:
@小白创作中心
正态性检验(Shapiro-Wilk test检验和kstest检验)
引用
CSDN
1.
https://blog.csdn.net/qq_45932996/article/details/141689121
正态分布又称高斯分布(Gaussian distribution)。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其中期望值μ决定了其位置,标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布就是标准正态分布。有相当多的统计程序对数据要求比较严格,它们只有在变量服从或者近似服从正态分布的时候才是有效的,所以在对整理收集的数据进行预处理的时候需要对它们进行正态检验。
1 Shapiro-Wilk test检验
使用Shapiro-Wilk test检验数据是否服从正态分布的代码如下:
import pandas as pd # 载入pandas模块,并简称为pd
import numpy as np # 载入numpy模块,并简称为np
from scipy import stats # 载入stats模块
data = pd.read_csv(r'数据4.1.csv')
# Shapiro-Wilk test检验
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("Shapiro test for {columnName}".format(columnName=columnName))
res = stats.shapiro(columnData)
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据Shapiro-Wilk test检验结果,变量year、profit、labor服从正态分布,invest、rd不服从正态分布。
说明:
- 首先定义了原假设Ho和备择假设Ha,以及显著性水平alpha为 0.05。
- 原假设Ho表示数据服从正态分布。
- 备择假设Ha表示数据不服从正态分布。
- 显著性水平alpha通常用于判断是否拒绝原假设,一般取值较小,这里取 0.05 表示在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部,使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("Shapiro test for {columnName}".format(columnName=columnName))这行代码打印出正在进行 Shapiro-Wilk 检验的列名。
- res = stats.shapiro(columnData)调用stats.shapiro函数对当前列的数据进行 Shapiro-Wilk 检验,这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- if pValue > alpha:如果 p 值大于显著性水平alpha,则表示不能拒绝原假设,即数据可能服从正态分布。打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- else:如果 p 值小于等于显著性水平alpha,则拒绝原假设,即数据不服从正态分布。打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Shapiro-Wilk 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
2 kstest检验
使用kstest检验数据是否服从正态分布的代码如下:
# 使用kstest检验数据是否服从正态分布
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("kstest for {columnName}".format(columnName=columnName))
res = stats.kstest(columnData, 'norm')
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据kstest检验结果,变量year、profit、invest、labor、rd均不服从正态分布。综合两种检验结果,我们可以认为year、profit、invest、labor、rd均不服从正态分布。
说明:
- 首先定义了原假设Ho、备择假设Ha和显著性水平alpha:
- Ho表示数据服从正态分布。
- Ha表示数据不服从正态分布。
- alpha设置为 0.05,通常用于判断是否拒绝原假设,即在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部:
- 使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("kstest for {columnName}".format(columnName=columnName))打印出正在进行 Kolmogorov-Smirnov 检验的列名。
- res = stats.kstest(columnData, 'norm')使用scipy.stats模块中的kstest函数对当前列的数据进行检验。第一个参数columnData是要检验的数据,第二个参数'norm'表示检验其是否服从正态分布。这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- 如果pValue > alpha,表示 p 值大于显著性水平,此时不能拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- 如果pValue <= alpha,表示 p 值小于等于显著性水平,此时拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Kolmogorov-Smirnov 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
热门推荐
汽车保险该怎么买?一篇详尽解析
紫草膏的功效与作用
狗狗呕吐不要慌,了解这六种情况与处理(狗狗的呕吐原因及相应应对措施)
山东海上风电年底新增装机150万千瓦
纺织印染工艺流程详解
雨刮寿命翻倍秘诀:玻璃水挑选防坑指南
车灯设计:基于 LED 光源的汽车车灯设计与优化
电源的共模 差模干扰是什么
世界镇痛日∣慢性疼痛患者饮食有“讲究”
湿气引起的皮肤瘙痒:原因与缓解方法
面向实际应用评估系统性能 《服务器算力算效评价规范》正式立项
PKI公钥基础设施
女性一生中最重要的三个关键时期,需要着重补充哪些营养素?
加勒比地区:现代世界史的熔炉
沈括《炼钢》的原文和译文
当AI遇见大数据:决策优化的下一个风口
路权与让行原则全解析,打造和谐交通环境
维生素C含量惊人,但是“热量刺客”!
行为观察治疗与行为矫正治疗评估、治疗记录表有哪些区别?
车载12V电源插排使用指南
《百合花》:解锁高考小说考点,一文读透战争与人性的光辉
家长组建志愿护校队,幼儿园创新启动“警校家”护学机制
不拽鼻毛、不抠鼻子是鼻腔护理的一部分
娘子关:历史烽烟中的边塞重镇
比特币的签名和验证(基于ECDSA)
如何计算基础代谢率?
未来长三角智慧农业怎么做?来看这场“头脑风暴”
出游订到“幽灵房”,我的损失谁负责?
黑河市:中国东北边陲的历史文化名城
自助服务如何更有温度?操作示范等还不可少