正态性检验(Shapiro-Wilk test检验和kstest检验)
创作时间:
作者:
@小白创作中心
正态性检验(Shapiro-Wilk test检验和kstest检验)
引用
CSDN
1.
https://blog.csdn.net/qq_45932996/article/details/141689121
正态分布又称高斯分布(Gaussian distribution)。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其中期望值μ决定了其位置,标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布就是标准正态分布。有相当多的统计程序对数据要求比较严格,它们只有在变量服从或者近似服从正态分布的时候才是有效的,所以在对整理收集的数据进行预处理的时候需要对它们进行正态检验。
1 Shapiro-Wilk test检验
使用Shapiro-Wilk test检验数据是否服从正态分布的代码如下:
import pandas as pd # 载入pandas模块,并简称为pd
import numpy as np # 载入numpy模块,并简称为np
from scipy import stats # 载入stats模块
data = pd.read_csv(r'数据4.1.csv')
# Shapiro-Wilk test检验
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("Shapiro test for {columnName}".format(columnName=columnName))
res = stats.shapiro(columnData)
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据Shapiro-Wilk test检验结果,变量year、profit、labor服从正态分布,invest、rd不服从正态分布。
说明:
- 首先定义了原假设Ho和备择假设Ha,以及显著性水平alpha为 0.05。
- 原假设Ho表示数据服从正态分布。
- 备择假设Ha表示数据不服从正态分布。
- 显著性水平alpha通常用于判断是否拒绝原假设,一般取值较小,这里取 0.05 表示在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部,使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("Shapiro test for {columnName}".format(columnName=columnName))这行代码打印出正在进行 Shapiro-Wilk 检验的列名。
- res = stats.shapiro(columnData)调用stats.shapiro函数对当前列的数据进行 Shapiro-Wilk 检验,这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- if pValue > alpha:如果 p 值大于显著性水平alpha,则表示不能拒绝原假设,即数据可能服从正态分布。打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- else:如果 p 值小于等于显著性水平alpha,则拒绝原假设,即数据不服从正态分布。打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Shapiro-Wilk 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
2 kstest检验
使用kstest检验数据是否服从正态分布的代码如下:
# 使用kstest检验数据是否服从正态分布
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("kstest for {columnName}".format(columnName=columnName))
res = stats.kstest(columnData, 'norm')
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据kstest检验结果,变量year、profit、invest、labor、rd均不服从正态分布。综合两种检验结果,我们可以认为year、profit、invest、labor、rd均不服从正态分布。
说明:
- 首先定义了原假设Ho、备择假设Ha和显著性水平alpha:
- Ho表示数据服从正态分布。
- Ha表示数据不服从正态分布。
- alpha设置为 0.05,通常用于判断是否拒绝原假设,即在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部:
- 使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("kstest for {columnName}".format(columnName=columnName))打印出正在进行 Kolmogorov-Smirnov 检验的列名。
- res = stats.kstest(columnData, 'norm')使用scipy.stats模块中的kstest函数对当前列的数据进行检验。第一个参数columnData是要检验的数据,第二个参数'norm'表示检验其是否服从正态分布。这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- 如果pValue > alpha,表示 p 值大于显著性水平,此时不能拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- 如果pValue <= alpha,表示 p 值小于等于显著性水平,此时拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Kolmogorov-Smirnov 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
热门推荐
五常大米选购攻略:让你成为识米达人!
劳动争议申诉书范文怎么写?
电动车是否应禁入地铁?交通部回应:各地未统一
长期服用降糖药对身体有害吗?这些注意事项请收好
专家观点 | 张少君:智慧管控助力城市机动车污染精准治理
劳动争议个人起诉的诉讼程序及注意事项
必看!2025柳州养老金计算公式全解,还有在线计算器可用
B类客户管理:从识别到优化的全流程指南
中小企业常用的融资方式都有哪些
精装房软装报价预算全攻略
如何打造团队氛围总结
2025年春运收官:浙江普陀山水上客流量超290万 成全国最热门水上航线
前叉术后训练后是延迟性肌肉酸痛还是肌肉纤维拉扯痛?别再傻傻分不清延误康复进程!
个人信息泄露去哪里举报投诉?法律全解析
作为幽云豪族的马植为何会叛辽投宋
冬天脸为什么干燥泛红?跟皮肤屏障有关
生理盐水能随便打吗?医生提醒:这几种人要当心
风的力量:如何掌握放风筝的技巧
村村有好戏 | 有机种植绘就“莓”好新图景
如何强制重启手机?详细步骤与注意事项介绍
糖尿病患者的饮食新选择:12种健康主食替代品
明代北京王恭厂大爆炸:历史谜团与多种假说
大理公安多维发力 护航旅游名城平安和谐
红蜡3D打印细节还原:打造制作精致手办模型的魅力之选
一文读懂地中海贫血报告单:筛查与诊断关键指标详解
养老保险离职后如何续交:法律依据与实务操作指南
预算绩效管理案例有哪些成功经验?
无收养手续的养子有继承权吗?
梨状肌综合症与腰椎间盘突出症区别在哪
乘坐顺风车“独享”变拼车 哈啰只答应退10.5元车费差价