粗大误差的剔除准则
粗大误差的剔除准则
在数据处理和统计分析中,粗大误差(也称为疏忽误差或过失误差)可能会严重影响分析结果的准确性。为了提高数据质量,需要建立有效的粗大误差剔除准则。本文将介绍几种常用的粗大误差剔除方法,并通过具体案例说明其应用。
粗大误差的剔除准则
- 3σ准则
- 当测量结果中,某一数据的残差绝对值 $|v| > 3\sigma$ 时,则剔除此数据。这是因为如果各测得值只含有随机误差,且按正态分布,残差 $v$ 落在 $\pm 3\sigma$ 以外的概率只有0.27%,在有限次重复测量中发生的可能性很小。因此,当 $|v| > 3\sigma$ 时,即可判断此数据含有粗大误差而予弃舍。
- 3σ准则比较保守,只宜用于重复测量次数较多(有的资料推荐测量次数>50)的重要测量中。
- 肖维勒(Chauvenet)准则
- 肖维勒准则也是以正态分布为前提的。假设多次重复测量所得 $n$ 个得值中,某数据的残差 $|v| > Z_c\sigma$,则剔除此数据。实用中 $Z_c < 3$,这在一定程度上弥补了3σ准则的不足。
- 由图可知,$|v| \geq Z_c\sigma$ 的概率为 $p = 1 - 2\phi(Z_c)$(图中阴影部分)。在等精度的 $n$ 次重复测量中,若只有一个测得值的残差 $v$ 超出某一界限 $\pm Z_c\sigma$,而相应的概率 $p = 1 - 2\phi(Z) = \frac{1}{n}$,则按正态分布规律,此值的残差为正常超出。
- 肖维勒准则规定:当 $p = 1 - 2\phi(Z) = \frac{1}{2n}$ 时,则判断该测得值的残差 $v$ 为因含粗大误差的非正常超出,故应将该值剔除。$Z_c$ 值由 $\phi(Z_c)$ 查正态概率积分表确定,而 $\phi(Z_c)$ 又按上式决定于 $n$ 值。
- 格拉布斯(Grubbs)准则
- 在测量数值(测量列)中某一数据的残差的绝对值 $|v| > G\sigma$ 时,则判断此值中含有粗大误差,应予剔除,此即格拉布斯准则。$G$ 值按重复测量次数 $n$ 及置信概率 $p_a$。
- t检验准则
- t检验准则又称罗曼诺夫斯基准则,它是按 $t$ 分布的实际误差分布范围来判断粗大误差,这对重复测量次数较少的情况比较合理。
- t检验准则的特点是将测量列的 $n$ 个测得值中可疑的测得值 $x_j$ 先剔除,然后按余下的 $(n-1)$ 个数据计算算术平均值 $\bar{x}'$ 和标准差 $\sigma'$ 值,再判断数据 $x_j$ 是否含有粗大误差。
- 根据测量次数 $n$ 和所选取的显著度 $a$,从下表中查得系数值 $k$。若所怀疑的数据 $x_j$ 有:$|x_j - \bar{x}'| > k\sigma'$,则可认为 $x_j$ 为含有粗大误差的数据,应予别除。反之保留。$x_j$ 剔除后,再取一个 $x_j'$ 值继续判断,直到数据不含粗大误差为止。
- 狄克逊(Dixon)准则
- 狄克逊(Dixon)准则在处理数据时比较灵活,因为它针对不同次数的测量数据,提供了不同的计算方式来识别异常值。由于具体计算方法较为复杂且多样,读者可根据自身需求自行搜索详细步骤或参考相关统计教材。
- 设所得的重复观测值按由小到大的规律排列:$x_1, x_2, \cdots, x_n$。其中的最大值为 $x_n$,最小值为 $x_1$。按以下几种情况计算统计量为 $\gamma_{ij}$ 或 $\gamma_{ij}'$:
- $3 \leq n \leq 7$:$\gamma_{10} = \frac{x_n - x_{n-1}}{x_n - x_1}, \gamma_{10}' = \frac{x_2 - x_1}{x_n - x_1}$
- $8 \leq n \leq 10$:$\gamma_{11} = \frac{x_n - x_{n-1}}{x_n - x_2}, \gamma_{11}' = \frac{x_2 - x_1}{x_{n-1} - x_1}$
- $11 \leq n \leq 13$:$\gamma_{21} = \frac{x_n - x_{n-2}}{x_n - x_2}, \gamma_{21}' = \frac{x_3 - x_1}{x_{n-1} - x_1}$
- $11 \leq n \leq 13$:$\gamma_{22} = \frac{x_n - x_{n-2}}{x_n - x_3}, \gamma_{22}' = \frac{x_3 - x_1}{x_{n-2} - x_1}$
举例说明
在应用以上各准则判断粗大误差时要注意,若同时有一个以上的测得值的残差 $v_i$ 超出判断界限,只能别除其中 $|v_i|$ 最大的那一个数据(如只两个相同的数据超限,也只能剔除其中的任一个)。也就是说,一次只能别除一个数据,之后再按剩下的 $(n-1)$ 个数据重新计算算术平均值 $\bar{x'}$ 以及 $v_i'$ 和 $\sigma'$,继续判断另一个可疑数据,直到全部数据无问题为止。那些在前次判断中和被剔除的数据同时超限的次大(或同样大)的数据,在重新计算后,其 $|v|$ 可能不超过判断是界限,所以每次只能别除一个超限的数据。
例:为了了解某恒温室实际温度对标准温度20℃的波动情况,连续对室温进行了15次重复测量,所得结果列于下表,试检査其中有无粗大误差。
解:从表中数据知,第8个测得值可疑。
(1)按3σ准则
$|v_{i8}| = 0.104$;$3\sigma = 0.033 \times 3 = 0.099$
$|v_{i8}| > 3\sigma$
故可判断 $t_8 = 20.30℃$ 含有粗大误差,应予别除。再按余下的14个数值计算(表中右方)。
$3\sigma' = 3 \times 0.016 = 0.048$
所有 14个 $|v_i'|$ 值均小于 $3\sigma'$,故无再剔除的坏值。
(2)按肖维勒准则
以 $n = 15$ 查表得 $Z_c = 2.13$。
$Z_c\sigma = 2.13 \times 0.033 = 0.07$
$|v_8| = 0.104 > Z_c\sigma$
故 $t_8$ 应剔除,再按 $n = 14$ 查表《肖维勒准则中的 $Z_c$ 值》,得 $Z_c = 2.10$。
$Z_c\sigma' = 2.10 \times 0.016 = 0.034$
所有 $|v_i'|$ 值均小于 $Z_c\sigma'$,故已无坏值。
(3)按格拉布斯准则
以 $n = 15$ 取置信概率 $p_a = 0.99$,查表《格拉布斯准则中的 $G$ 值》,得 $G = 2.70$。
$G\sigma = 2.7 \times 0.033 = 0.09 < |v_8|$
故 $t_8$ 应剔除,再按 $n = 14$,$\beta = 0.99$ 查表《格拉布斯准则中的 $G$ 值》,得 $G = 2.66$。
$G\sigma' = 2.66 \times 0.016 = 0.04$
所有 $|v_i'|$ 值均小于 $G\sigma'$,故无坏值。
(4)按 $t$ 检验准则
先将可疑值 $t_8$ 除外,按余下的14个数据计算得:
$\bar{t}{14} = 20.411$
$\sigma' = 0.016$
取显著度 $a = 0.01$(即置信概率为 $0.99$)。已知 $n = 15$,查表《$t$ 检验准则中的系数 $k$ 值》得系数 $k = 3.12$,则
$k\sigma' = 3.12 \times 0.016 = 0.05$
因
$|t_8 - \bar{t}{14}| = |20.30 - 20.411| = 0.111 > 0.05$
故可判断数据 $t_8$ 含有粗大误差,应予别除。
再对余下的14个数据继续判断,先提出 $t_7$($|v_7'|$ 最大),
$\bar{t}{13} = 20.4103$
$\sigma'' = 0.0156$
取显著度 $a = 0.01$,以 $n = 14$ 查表《$t$ 检验准则中的系数 $k$ 值》得 $k' = 3.17$。则
$k'\sigma'' = 3.17 \times 0.0156 = 0.049$
$|t_7 - \bar{t}{13}| = |20.41 - 20.39| = 0.02 < 0.049$
故数据中已不含粗大误差。