正态性检验(Shapiro-Wilk test检验和kstest检验)
创作时间:
作者:
@小白创作中心
正态性检验(Shapiro-Wilk test检验和kstest检验)
引用
CSDN
1.
https://blog.csdn.net/qq_45932996/article/details/141689121
正态分布又称高斯分布(Gaussian distribution)。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2),其中期望值μ决定了其位置,标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布就是标准正态分布。有相当多的统计程序对数据要求比较严格,它们只有在变量服从或者近似服从正态分布的时候才是有效的,所以在对整理收集的数据进行预处理的时候需要对它们进行正态检验。
1 Shapiro-Wilk test检验
使用Shapiro-Wilk test检验数据是否服从正态分布的代码如下:
import pandas as pd # 载入pandas模块,并简称为pd
import numpy as np # 载入numpy模块,并简称为np
from scipy import stats # 载入stats模块
data = pd.read_csv(r'数据4.1.csv')
# Shapiro-Wilk test检验
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("Shapiro test for {columnName}".format(columnName=columnName))
res = stats.shapiro(columnData)
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据Shapiro-Wilk test检验结果,变量year、profit、labor服从正态分布,invest、rd不服从正态分布。
说明:
- 首先定义了原假设Ho和备择假设Ha,以及显著性水平alpha为 0.05。
- 原假设Ho表示数据服从正态分布。
- 备择假设Ha表示数据不服从正态分布。
- 显著性水平alpha通常用于判断是否拒绝原假设,一般取值较小,这里取 0.05 表示在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部,使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("Shapiro test for {columnName}".format(columnName=columnName))这行代码打印出正在进行 Shapiro-Wilk 检验的列名。
- res = stats.shapiro(columnData)调用stats.shapiro函数对当前列的数据进行 Shapiro-Wilk 检验,这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- if pValue > alpha:如果 p 值大于显著性水平alpha,则表示不能拒绝原假设,即数据可能服从正态分布。打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- else:如果 p 值小于等于显著性水平alpha,则拒绝原假设,即数据不服从正态分布。打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Shapiro-Wilk 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
2 kstest检验
使用kstest检验数据是否服从正态分布的代码如下:
# 使用kstest检验数据是否服从正态分布
Ho = '数据服从正态分布' # 定义原假设
Ha = '数据不服从正态分布' # 定义备择假设
alpha = 0.05 # 定义显著性P值
def normality_check(data):
for columnName, columnData in data.items():
print("kstest for {columnName}".format(columnName=columnName))
res = stats.kstest(columnData, 'norm')
pValue = round(res[1], 2)
if pValue > alpha:
print("pvalue = {pValue} > {alpha}. 不能拒绝原假设. {Ho}".format(pValue=pValue, alpha=alpha, Ho=Ho))
else:
print("pvalue = {pValue} <= {alpha}. 拒绝原假设. {Ha}".format(pValue=pValue, alpha=alpha, Ha=Ha))
normality_check(data)
结果:
综上所述,根据kstest检验结果,变量year、profit、invest、labor、rd均不服从正态分布。综合两种检验结果,我们可以认为year、profit、invest、labor、rd均不服从正态分布。
说明:
- 首先定义了原假设Ho、备择假设Ha和显著性水平alpha:
- Ho表示数据服从正态分布。
- Ha表示数据不服从正态分布。
- alpha设置为 0.05,通常用于判断是否拒绝原假设,即在 5% 的显著性水平下进行检验。
- 定义了一个名为normality_check的函数,该函数接受一个参数data,通常这个参数是一个字典或者类似的数据结构,其中包含不同的数据集,每个数据集可以通过一个键(比如列名)来访问。
- 在normality_check函数内部:
- 使用for循环遍历data中的每一个键值对,其中columnName是键(通常是列名),columnData是对应的值(通常是一列数据)。
- print("kstest for {columnName}".format(columnName=columnName))打印出正在进行 Kolmogorov-Smirnov 检验的列名。
- res = stats.kstest(columnData, 'norm')使用scipy.stats模块中的kstest函数对当前列的数据进行检验。第一个参数columnData是要检验的数据,第二个参数'norm'表示检验其是否服从正态分布。这个函数会返回一个包含检验统计量和 p 值的元组。
- pValue = round(res[1], 2)从元组中取出 p 值,并将其保留两位小数。
- 如果pValue > alpha,表示 p 值大于显著性水平,此时不能拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和原假设的内容。
- 如果pValue <= alpha,表示 p 值小于等于显著性水平,此时拒绝原假设,打印出相应的信息,包括 p 值、显著性水平和备择假设的内容。
- 最后,调用normality_check(data)函数,传入要进行正态性检验的数据,开始执行整个检验过程。
使用 Kolmogorov-Smirnov 检验来判断给定数据集中的每一列数据是否服从正态分布,并根据检验结果打印出相应的结论。
热门推荐
新“交通大学”即将启动建设!就在广州!
宁波医院引入达摩院医疗AI,已发现6例早期胰腺癌
大腿骨折出院后护理指南
解锁基层治理创新的密码——福建省福州市打造社区法治化转型样本
大豆不只是碳水化合物:全面解析大豆的营养成分
Excel实用技巧:轻松将图片嵌入单元格,让报表更出彩!
怀孕11周吃的食物有哪些
农行人力资源部联系电话怎么找?
美国学校万圣节活动有哪些精彩瞬间
科比篮球过人招式「科比帅气过人篮球教学」
如何选择一个独特且有意义的中文网名
为何对未完成的事念念不忘?揭秘“蔡加尼克效应”
八字的傷官是什麼意思?如何解讀其在命理學中的重要性
华为IPD的3大核心优势与挑战
终于发现:春天还是穿“卫衣”最舒适时髦,配裙子、裤子都好看
神猫7大奇才表现,你家喵星人达标了吗
单位休假制度中无薪假期怎么处理?
职工请假制度中,哪些情况可以申请无薪假?
幸福教育:与大自然保持连接
手部摔伤后肿胀怎么办?医生推荐5个实用处理方法
一碗螺蛳粉的热量(臭宝一碗螺蛳粉的热量)
泉州旅游住哪个区方便?
手臂麻是什么原因和征兆
谢晋拒绝删掉《高山下的花环》“烈士欠账”情节:我不拍了!
中世纪的神圣罗马帝国,为何能存在900年?难道比唐朝还厉害?
太让你舒服的沙发,可能伤你最深
酒店的不隔音记录怎么查,酒店不隔音记录怎么查?一文全解析
浅谈刑事诉讼中的起诉咨询与律师作用
王羲之:书法影响后世,而其书法造诣又是如何形成的
最全商标注册费用详解