正态性检验(Shapiro-Wilk test检验和kstest检验)
创作时间:
作者:
@小白创作中心
正态性检验(Shapiro-Wilk test检验和kstest检验)
引用
CSDN
1.
https://blog.csdn.net/qq_45932996/article/details/141689121
正态分布又称高斯分布(Gaussian distribution)。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其中期望值μ决定了其位置,标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布就是标准正态分布。有相当多的统计程序对数据要求比较严格,它们只有在变量服从或者近似服从正态分布的时候才是有效的,所以在对整理收集的数据进行预处理的时候需要对它们进行正态检验。
1 Shapiro-Wilk test检验
使用Shapiro-Wilk test检验数据是否服从正态分布的代码如下:
import pandas as pd # 载入pandas模块,并简称为pd
import numpy as np # 载入numpy模块,并简称为np
from scipy import stats # 载入stats模块
data = pd.read_csv(r'数据4.1.csv')
# Shapiro-Wilk test检验
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("Shapiro test for {columnName}".format(columnName=columnName))
res = stats.shapiro(columnData)
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据Shapiro-Wilk test检验结果,变量year、profit、labor服从正态分布,invest、rd不服从正态分布。
说明:
- 首先定义了原假设Ho和备择假设Ha,以及显著性水平alpha为 0.05。
- 原假设Ho表示数据服从正态分布。
- 备择假设Ha表示数据不服从正态分布。
- 显著性水平alpha通常用于判断是否拒绝原假设,一般取值较小,这里取 0.05 表示在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部,使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("Shapiro test for {columnName}".format(columnName=columnName))这行代码打印出正在进行 Shapiro-Wilk 检验的列名。
- res = stats.shapiro(columnData)调用stats.shapiro函数对当前列的数据进行 Shapiro-Wilk 检验,这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- if pValue > alpha:如果 p 值大于显著性水平alpha,则表示不能拒绝原假设,即数据可能服从正态分布。打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- else:如果 p 值小于等于显著性水平alpha,则拒绝原假设,即数据不服从正态分布。打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Shapiro-Wilk 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
2 kstest检验
使用kstest检验数据是否服从正态分布的代码如下:
# 使用kstest检验数据是否服从正态分布
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("kstest for {columnName}".format(columnName=columnName))
res = stats.kstest(columnData, 'norm')
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据kstest检验结果,变量year、profit、invest、labor、rd均不服从正态分布。综合两种检验结果,我们可以认为year、profit、invest、labor、rd均不服从正态分布。
说明:
- 首先定义了原假设Ho、备择假设Ha和显著性水平alpha:
- Ho表示数据服从正态分布。
- Ha表示数据不服从正态分布。
- alpha设置为 0.05,通常用于判断是否拒绝原假设,即在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部:
- 使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("kstest for {columnName}".format(columnName=columnName))打印出正在进行 Kolmogorov-Smirnov 检验的列名。
- res = stats.kstest(columnData, 'norm')使用scipy.stats模块中的kstest函数对当前列的数据进行检验。第一个参数columnData是要检验的数据,第二个参数'norm'表示检验其是否服从正态分布。这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- 如果pValue > alpha,表示 p 值大于显著性水平,此时不能拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- 如果pValue <= alpha,表示 p 值小于等于显著性水平,此时拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Kolmogorov-Smirnov 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
热门推荐
银行取款新规定:人脸识别与大额取款监管并行
淞沪会战:八十年前的血色记忆
波爱修斯:命运的囚徒
英国摆摊创业指南:从市场分析到成功案例
“童子军”的制胜“法宝”
电子敏感元件废气怎么处理|电子半导体行业废气处理解决方案
反手技术教学:探索提高球技的关键要点与技巧
洋葱发芽了还能吃吗
萌力全开,兄妹情深笑料不断!
OpenAI对中国"停服",是"毒药"还是"助攻"?
如何处理户口迁移问题?户口迁移问题有哪些解决方法?
综述!碳纳米管在智能热管理的最新研究及展望!
特稿 | 新疆沙漠螃蟹、西藏本地鱼虾,高原水产如何创造“水灵灵”的奇迹?
北京两宗地底价成交 中海联合未来科学城再探朱辛庄
音乐疗法的种类:完整的技能指南
国家统计局谈就业形势:空间持续拓展,但仍面临不少挑战和困难
9个月宝宝辅食全攻略:精选食材+制作秘籍+品牌好物
荷花的象征意义(探寻荷花在文化与心灵中的意义)
如何降低君越汽车的轮胎噪音?
员工为泄私愤发布不实信息,公司可以解雇吗?
电脑升级攻略:老电脑大变身?再战几年不是梦
我国算力产业发展现状:算力需求不断增速,“绿色AI”引导算力算法低碳发展
科研实验室设计装修指南:从理念到实践的全方位解析
比特币铭文是什么东西?
如何利用BBC新闻原文提升A-Level英语水平
布洛芬VS塞来昔布,止痛效果哪家强
百亿小镇来路演:东莞石排再造“潮玩之都”,要从制造商变创作家
“仅退款”政策深度剖析:消费者 商家 平台有哪些法律边界?
如何利用BBC新闻原文提升A-Level英语水平
再见广州队!再见八冠王!广州队宣布解散,韦世豪是导火索