问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

解释配对t检验的所有统计量和图形

创作时间:
作者:
@小白创作中心

解释配对t检验的所有统计量和图形

引用
1
来源
1.
https://support.minitab.com/zh-cn/minitab/help-and-how-to/statistics/basic-statistics/how-to/paired-t/interpret-the-results/all-statistics-and-graphs/

配对t检验是一种常用的统计方法,用于比较两个相关样本的均值是否存在显著差异。在进行配对t检验时,理解各种统计量和图形的含义至关重要。本文将详细解释配对t检验中涉及的各个统计量和图形,帮助读者更好地理解和应用这一统计方法。

N

样本数量(N)是样本中的观测值总数。

解释

样本数量会影响置信区间和检验功效。通常,数量较大的样本将产生较窄的置信区间。样本数量越大,检验检测到差值的功效越大。有关更多信息,请转到什么是功效?

均值

Minitab显示每个样本的均值以及配对观测值之间差值的均值。

均值使用表示数据中心的单个值来汇总样本值。均值是数据的平均值,即所有观测值之和除以观测值的个数。

为了计算差值的均值,Minitab先计算配对观测值之间的差值,然后计算差值的均值。

解释

均值差值是对总体均值差值的估计值。由于均值差值基于样本数据而不是整个总体,因此样本均值差值通常不等于总体均值差值。使用置信区间可以更好地估计总体均值差值。

标准差

标准差是离差的最常用度量,即数据从均值展开的程度。符号σ(西格玛)通常用于表示总体的标准差,而s用于表示样本的标准差。对某一过程而言随机或合乎自然规律的变异通常称为噪声。

标准差与数据采用相同的单位。

解释

使用标准差可以确定数据从均值扩散的程度。标准差值越大,数据越分散。对于正态分布来说,好的经验法则是大约68%的值位于均值的一个标准差范围内,95%的值位于两个标准差范围内,99.7%的值位于三个标准差范围内。

样本数据的标准差是对总体标准差的估计值。值越大,置信区间就越不精确(越宽),检验的性能也越低。

使用标准差还可以建立用来估计过程的总体变异性的基准。

医院1
医院2
医院出院时间
管理员对两家医院急诊部所治疗的患者的出院时间进行跟踪。尽管平均出院时间大致相同(35分钟),但标准差显著不同。医院1的标准差大约为6。平均而言,患者的出院时间大约偏离均值(虚线)6分钟。医院2的标准差大约为20。

均值的标准误

均值的标准误(SE均值)估计样本均值之间的变异性,样本均值是在对相同总体重复抽样的情况下获得的。而均值的标准误估计样本之间的变异性,标准差度量单个样本内的变异性。

例如,根据312个交货时间的随机样本,得到平均交货时间为3.80天,标准差为1.43天。这些数字产生的均值标准误为0.08天(1.43除以312的平方根)。如果从相同总体中抽取大小相同的多个随机样本,则这些不同样本均值的标准差将大约为0.08天。

解释

使用均值的标准误可以确定样本均值对总体均值的估计精确度。均值的标准误越小,对总体均值的估计越精确。通常,标准差越大,均值的标准误就越大,对总体均值的估计也越不精确。样本越大,均值的标准误就越小,对总体均值的估计也越精确。

Minitab使用均值的标准误来计算置信区间。

置信区间(CI)和界限

置信区间提供总体均值差值的可能值范围。由于样本的随机性,来自总体的两个样本不可能生成相同的置信区间。但是如果将样本重复许多次,则所获得的特定百分比的置信区间或限值会包含未知的总体均值差值。这些包含均值差值的置信区间或限值的百分比是区间的置信水平。例如,95%置信水平表明,如果从总体中随机抽取100个样本,则大约95个样本将产生包含总体均值差值的区间。

上限定义可能大于总体均值差值的值。下限定义可能小于总体均值差值的值。

置信区间有助于评估结果的实际意义。使用您的专业知识可以确定置信区间是否包括对您的情形有实际意义的值。如果区间因太宽而毫无用处,请考虑增加样本数量。有关更多信息,请转到获得更加精确的置信区间的方法。

配对差值的估计值

均值 标准差 均值标准误 μ_差 的 95% 置信区间
2.200 3.254 0.728 (0.677, 3.723)

在这些结果中,心率的总体均值差值的估计值为2.2。总体均值差值介于0.677和3.723之间的可信度为95%。

原假设和备择假设

原假设和备择假设是互斥的总体声明。假设检验使用样本数据来确定是否要否定原假设。

原假设
原假设声明总体参数(如均值、标准差等)等于假设值。原假设通常是基于先前分析或专业知识的初始声明。

备择假设
备择假设声明总体参数小于、大于或不同于原假设中的假设值。备择假设是可能相信为真实或有望证明为真实的内容。

在输出中,原假设和备择假设可帮助您验证是否为检验差值输入了正确的值。

T 值

T值是t检验统计量的观测值,它度量观测到的样本统计量与假设总体参数之间的差值,以标准误为单位。

解释

可以通过将t值与t分布的临界值进行比较来确定是否要否定原假设。但是,使用检验的p值做出相同的决定通常更实际且更方便。

为了确定是否要否定原假设,请将t值与临界值进行比较。对于双侧检验,临界值是tα/2, n–1;而对于单侧检验,临界值是tα, n–1。对于双侧检验,如果t值的绝对值大于临界值,则否定原假设。否则,无法否定原假设。您可以在Minitab中计算临界值,也可以在大多数统计书籍的t分布表中查找临界值。有关更多信息,请转到使用逆累积分布函数(ICDF),然后单击“使用ICDF计算临界值”。

t值可用于计算p值。

P 值

P值是一个概率,用来度量否定原假设的证据。P值越小,否定原假设的证据越充分。

解释

使用p值可确定差值的总体均值在统计意义上是否不同于差值的假设均值。

要确定总体均值的差值在统计意义上是否显著,请将p值与显著性水平进行比较。通常,显著性水平(用α或alpha表示)为0.05即可。显著性水平0.05指示在实际上不存在差值时得出存在差值的风险为5%。

P值≤α:均值的差值在统计意义上显著(否定H0)
如果p值小于或等于显著性水平,则决策为否定原假设。您可以得出总体均值的差值不等于假设差值的结论。如果您没有指定假设差值,Minitab将检验均值之间是否不存在差值(假设差值=0)请使用您的专业知识确定差值在实际意义上是否显著。有关更多信息,请转到统计显著性和实际显著性。

P值>α:均值的差值在统计意义上不显著(无法否定H0)
如果p值大于显著性水平,则决策为无法否定原假设。您没有足够的证据得出配对观测值的平均差值在统计意义上显著的结论。您应该确保检验具有足够的功效来检测到在实际意义上显著的差值。有关更多信息,请转到配对t的功效和样本数量。

直方图

直方图将样本值分成许多区间,并使用条形表示每个区间中的数据值的频率。

解释

可使用直方图评估数据的形状和散布。当样本数量大于20时,直方图具有最佳状态。

偏斜数据
检查数据的散布以确定数据看上去是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。


右偏斜


左偏斜

带右偏斜数据的直方图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的条形图显示故障时间数据。有几个项目立即失败,还有其他许多项目在随后失败。

如果您的样本小(小于20个值),严重偏斜的数据可影响p值的有效性。如果您的数据严重偏斜,并且样本小,请考虑增大样本数量。

异常值
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。

在直方图上,图形任一端上的孤立条形标识可能的异常值。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到标识异常值。

单值图

单值图显示样本中的单个值。每个圆形表示一个观测值。当您具有的观测值相对较少,以及需要评估每个观测值的效果时,单值图尤其有用。

解释

可使用单值图检查数据的散布,以及确定任何可能的异常值。当样本数量小于50时,单值图具有最佳状态。

偏斜数据
检查数据的散布以确定数据看上去是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。


右偏斜

左偏斜
带右偏斜数据的单值图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的单值图显示故障时间数据。有几个项目立即失败,还有其他许多项目在随后失败。

如果您的样本小(小于20个值),严重偏斜的数据可影响p值的有效性。如果您的数据严重偏斜,并且样本小,请考虑增大样本数量。

异常值
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。

在单值图上,异常低或高的数据值表示可能的异常值。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到标识异常值。

箱线图

箱线图提供了样本分布的图形汇总。箱线图显示数据的形状、集中趋势和变异性。

解释

可使用箱线图检查数据的散布,以及确定任何可能的异常值。当样本数量大于20时,箱线图具有最佳状态。

偏斜数据
检查数据的散布以确定数据看上去是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。


右偏斜

左偏斜
带右偏斜数据的箱线图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的箱线图显示故障时间数据。有几个项目立即失败,还有其他许多项目在随后失败。

如果您的样本小(小于20个值),严重偏斜的数据可影响p值的有效性。如果您的数据严重偏斜,并且样本小,请考虑增大样本数量。

异常值
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。

在箱线图上,星号(*)表示异常值。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到标识异常值。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号