假设检验学习笔记
假设检验学习笔记
1.1 基本原理
根据样本信息与已知信息,对一个描述总体性质的命题进行“是或否”的检验与回答
1.2 假设检验的推导
step1:建立原假设和备择假设
step2:确定显著性水平,临界值,拒绝域
step3:构造检验统计量
step4:代入数据,输出对应分布的分位点,计算临界值(拒绝域),做出判断
1.3 两类错误
1.3.1 第一类错误:原假设H0为真,但是数据却落入了拒绝域(因此做出拒绝H0的判断)。 犯第一类错误的概率被称为拒真概率α。
第二类错误:原假设H0为假,但是数据却没有落入拒绝域(因此做出接受H0的判断)。 犯第二类错误的概率被称为受伪概率β。
1.4 显著性水平
在定夺临界值的时候,我们要保证发生第一类错误的概率α需要在一个给定的、较小的水平(通常取α=0.05/0.1),此时α又被称为显著性水平。
1.5 p值
p值是在确定的样本观测值下,给出的能拒绝原假设的最小显著性水平,它只与样本观测值和我们做的假设检验有关。 p值越小越可以拒绝原假设,例如:如果p值为0.001,比0.01的置信水平还要小,我们认为在0.01的置信水平下我们也可以拒绝原假设;而如果p值为0.025,比0.01的置信水平要大,但小于0.05,则我们认为在0.05的置信水平下我们可以拒绝原假设,但在0.01置信水平下不可以拒绝。
p值的形式与我们做的备择假设H1有关:
· 若H1的符号为≠,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(|𝑋|>|𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠|)
· 若H1的符号为>,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋>𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)
· 若H1的符号为<,则:𝑝𝑣𝑎𝑙𝑢𝑒=𝑃(𝑋<𝑇𝑒𝑠𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠)
2.1 正态性检验
H0:样本所在分布服从正态分布
H1:样本所在分布不服从正态分布
Shapiro-Wilk检验——小样本正态性检验
样本量适用范围:样本量不得小于8,小于50最佳,小于2000效果较好,超过5000后不再适用。
· D'Agostino's K-squared test——大样本正态性检验
样本量适用范围:样本量不得小于4,除此以外越大越好。
2.2 均值检验
2.2.1 单组样本均值假定的检验
检验一个样本所在总体的均值是否和一个参考值相等,这就是单组样本均值假定的检验。
常见方法:t检验和wilcoxon符号秩和检验
t检验:数据符合正态分布时可以使用,构造t检验统计量,计算P值,进行判断
wilcoxon符号秩和检验:一种非参数检验方法,数据不符合正态分布时,将数据从大到小进行排列,引入秩和统计量,进行假设检验判断
2.2.2 两组样本的均值相等性检验
step1:独立性检验(抽样意义上的独立,即一个样本的受试不影响另一个样本的受试)
step2:双样本t检验/Mannwhitneyu秩和检验
2.2.3 成对检验
两个样本分别为同一个受试个体不同时间的受试结果。例如一组同学前后两次的考试成绩。若总体服从正态分布,则使用成对t检验;若总体不服从正态分布,则使用成对wilcoxon秩和检验。
2.2.4 方差分析
因素:区分不同组别的依据
水平:对于单因素方差分析而言,进行比较的样本个数。
单因素方差分析思想:观察各个样本之间的均值差异,从而判断单一因素对总体的影响
原理解析:定义组内偏差和组间偏差,计算总的“差异程度”。
总偏差平方和𝑆𝑇:
组内偏差平方和𝑆𝑒:
组间偏差平方和𝑆𝐴:
将Se和SA除以自由度统一量纲,构造F检验统计量,进行假设检验
作业:
数据量为13的甲数据集正态性假设检验的结果 : ----------------
Omnibus 0.487527
Shapiro-Wilk 0.717019
dtype: float64
因为Shapiro-Wilk test不显著(p>0.01),所以甲数据集是正态分布。
数据量为14的数据集正态性假设检验的结果 : ----------------
Omnibus 0.127615
Shapiro-Wilk 0.111537
dtype: float64
因为Shapiro-Wilk test不显著(p>0.01),所以乙数据集是正态分布。
由excel数据分析可得
F-检验 双样本方差分析
变量 1 变量 2
平均 14.98462 14.93571
方差 0.264744 0.285549
观测值 13 14
df 12 13
F 0.927137
P(F<=f) 单尾 0.450945
F 单尾临界 0.243911
由P>0.2>0.01,接受原假设,甲乙两样本方差无显著性差异。
在显著性水平0.01下,不能拒绝两组样本方差相等的假设(p=0.8656),因此需要使用方差相等的t检验
------------------------------------
t检验p值:0.811
Mann-Whitney检验p值:0.769
------------------------------------
两组样本均值的散点图可视化
因为t检验的p值大于0.01,所以两种产品的直径没有显著性差异。
4.对样本丙进行正态性检验,样本丙未通过正态性检验,不符合正态分布。
数据量为17的丙的数据集正态性假设检验的结果 : ----------------
Omnibus 9.796679e-08
Shapiro-Wilk 3.649597e-05
dtype: float64
因此,对甲乙丙三组数据进行kruskalwallis检验。
结果为:
若样本不服从正态分布,单因素方差分析的p值为0.8624406173813932
Out[22]:
levene 0.221198
anova_oneway_notnormal 0.862441
dtype: float64
检验在0.01的显著性水平下显著,3组产品的直径均值相等,不存在显著性差异,本题的因素是车床品牌