什么是置信区间、置信水平(置信度)、显著性水平?你真的搞清楚了吗?
什么是置信区间、置信水平(置信度)、显著性水平?你真的搞清楚了吗?
在统计学中,置信区间、置信水平和显著性水平是三个非常重要的概念,它们在数据分析和假设检验中扮演着关键角色。本文将通过具体例子,帮助读者深入理解这些概念及其计算方法。
什么是置信区间
置信区间(Confidence Interval, CI)是统计学中用来估计总体参数的一个区间范围。
例子:假设我们有一组数据,表示某个班级学生的考试成绩(单位:分):85,90,88,92,87,89,91,86,88,90。我们要计算这组数据的95%置信水平下的置信区间。通过计算,我们得到了这组数据的95%置信区间为 [87.01,90.18]。这意味着我们有95%的把握认为,所有学生考试成绩的总体均值落在这个区间内。
什么是置信水平(置信度)
置信水平(Confidence Level)是衡量置信区间可靠性的指标。常见的置信水平有90%,95%,和99%等。比如,95%的置信水平意味着我们有95%的信心认为总体参数的真实值位于计算出的置信区间内。简单说就是你对预估结果准确概率的要求,也称为置信度。
例子:在95%的准确概率的要求下,估计班级学生的考试成绩为[87.01,90.18],这个95%就是置信水平。
什么是显著性水平
显著性水平(Significance Level),通常用α表示,是在假设检验中拒绝原假设时犯第一类错误(即假阳性错误,错误地拒绝了实际上正确的原假设)的最大可接受概率。常用的显著性水平有0.10、0.05、0.01等。显著性水平与置信水平密切相关,置信水平=1-α。例如,当显著性水平α=0.05时,对应的置信水平为95%。
假设我们想要测试一种新的减肥药是否有效。我们的原假设是这种药物没有效果,而备择假设是它确实有效。我们选择了5%的显著性水平(α=0.05)。这意味着,即使药物实际上没有效果,我们也有5%的概率错误地得出药物有效的结论(即犯第一类错误)。因此,如果我们的实验结果显示药物有效的概率小于5%,我们就会拒绝原假设,认为药物是有效的。
如何计算置信区间
我们仍然以某个班级学生的考试成绩(单位:分):85,90,88,92,87,89,91,86,88,90。为例来计算置信区间。
- 确定置信水平
在体外诊断试剂中常用的置信水平为95%,97.5%,99%,一般情况下为95%。
- 计算样本的统计量
所谓的样本统计量指的是样本的一个函数。比如样本的平均值、方差、标准差等都是统计量。
步骤1:我们先计算样本的均值为88.6
步骤2:计算样本标准差s为2.22
- 查正态分布表或t分布表,求得z值或t值。
当样本量较小时:
如果为小样本量,需要通过t分布表求得95%置信区间的t值,需要结合自由度查t分布表,自由度=n-1。n为样本数量。
比如样本量为10人,则自由度为9求解过程如下为图中灰色部分面积=(1-95%)=0.05,自由度为9,用双尾检测,查表得t=2.262。
当样本量较大时:
如果为大样本量,通过正态分布表即可求得95%置信区间的z值,查表得z=1.96。
- 计算置信区间
步骤1:计算标准误差SE,SE=S/√n
步骤2:计算置信区间
当样本数较少Z=2.262带入数值:
置信区间下限:88.6-2.262*0.702=87.01
置信区间上限:88.6+2.262*0.702=90.18
当样本数较大Z=1.96带入数值:
置信区间下限:88.6-1.96*0.702=87.224
置信区间上限:88.6+1.96*0.702=90.076