问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

粗大误差的剔除准则

创作时间:
作者:
@小白创作中心

粗大误差的剔除准则

引用
CSDN
1.
https://blog.csdn.net/weixin_46153372/article/details/143978048

在数据处理和实验科学中,如何识别和处理含有粗大误差的数据是一个重要问题。本文介绍了六种常用的粗大误差剔除准则,包括3σ准则、肖维勒准则、格拉布斯准则、t检验准则、狄克逊准则,并通过一个具体例子说明了这些准则的应用。

粗大误差的剔除准则

  • 1、3σ准则
  • 2、肖维勒(Chauvenet)准则
  • 3、格拉布斯(Grubbs)准则
  • 4、t检验准则
  • 5、狄克逊(Dixon)准则
  • 6、举例说明

粗大误差又称疏忽误差或过失误差。它是由于技术不熟练,测量时不小心或外界的突然干扰(例如突然振动、仪器电源电压的突然变化)等原因造成的。含有粗大误差的测量数据,常比正常数据相差较大(过大或过小)。当对某一量值作多次独立的等精度重复测量,如其中个别或少数数据明显地偏大或偏小时,则可怀疑数据中含有粗大误差。

对已确知是在受到外界不正常干扰下测得的数据,或经检查明显是错读、错记的数据,则应弃舍。但不能不知原因不加分析就轻易弃舍测量列中最大或最小的数据,因为这样可能造成错觉,会对余下数据的精度作出过高的估计。

对较重要的测量(一般都是多次重复测量),其得结果中被怀含有粗大误差而又不明原因的数据,应按一定的剔除准则来判断。为此,人们建立了一些准则,这些准则,都有一定的统计依据,但又各不相同。至于单次测量值是否含有粗大误差,则只能作直观判断。下面就常用的几种准则作一介绍。

1、3σ准则

3σ准则又称莱以达准则。当测量结果(测量列)中,某一数据的残差的绝对值∣v∣>3σ时,则剔除此数据。因为如各测得值只含有随机误差,且按正态分布,残差v落在±3σ以外的概率只有0.27%,它在有限次重复测量中发生的可能性很小,故当∣v∣>3σ时,即可判断此数据含有粗大误差而予弃舍。

3σ准则比较保守,因为在测量次数有限时,出现在靠近±3σ界限处的数据极少,除非有较大的粗大误差,否则∣v∣>3σ而导致数据被剔除的可能性很小。

3σ准则只宜用于重复测量次数较多(有的资料推荐测量次数>50)的重要测量中。

2、肖维勒(Chauvenet)准则

肖维勒准则也是以正态分布为前提的。假设多次重复测量所得n个得值中,某数据的残差∣v∣>Zcσ,则剔除此数据。实用中Zc<3,这在一定程度上弥补了3σ准则的不足。

由图可知,∣v∣≥Zcσ的概率为

p=1−2ϕ(Zc)(图中阴影部分)

2ϕ(Zc)=p[∣xi−xˉ∣<Zcσ]

在等精度的n次重复测量中,若只有一个测得值的残差v超出某一界限±Zcσ,而相应的概率p=1−2ϕ(Z)=1n,则按正态分布规律,此值的残差为正常超出,因为”个等精度测得值中出现一个的概率恰好是1n。这说明此值中含有随机误差,但不含粗大误差。

若按以上条件算出的概率力值小于1n很多则上述正常超出的可能性减小,而含有粗大误差的非正常超出的可能性增大,这就是肖维勒准则的出发点。肖维勒准则规定:

当p=1−2ϕ(Z)=12n时,则判断该测得值的残差v为因含粗大误差的非正常超出,故应将该值剔除。

pc=1−2ϕ(Zc)=12n

ϕ(Zc)=2n−14n

Zc值由ϕ(Zc)查正态概率积分表确定,而ϕ(Zc)又按上式决定于n值,因此可得简表以备查用。

3、格拉布斯(Grubbs)准则

格拉布斯准则的来源推导较繁,这里只介绍具体用法。

在测量数值(测量列)中某一数据的残差的绝对值∣v∣>Gσ时,则判断此值中含有粗大误差,应予剔除,此即格拉布斯准则。G值按重复测量次数n及置信概率pa。

4、t检验准则

t检验准则又称罗曼诺夫斯基准则,它是按t分布的实际误差分布范围来判断粗大误差,这对重复测量次数较少的情况比较合理,而一般测量的重复测量次数总是很有限的。

t检验准则的特点是将测量列的n个测得值中可疑的测得值xj先剔除,然后按余下的(n-1)个数据计算算术平均值xˉ′和标准差σ′值,再判断数据xj是否含有粗大误差。

xˉ′=1n−1∑i=1nxi(不含xj)

σ′=∑i=1nvi2n−2(不含vj=xj−xˉ′)

根据测量次数n和所选取的显著度a,从下表中查得系数值k。若所怀疑的数据xj有:

∣xj−xˉ′∣>kσ′

则可认为xj为含有粗大误差的数据,应予别除。反之保留。xj剔除后,再取一个xj′值继续判断,直到数据不含粗大误差为止。

5、狄克逊(Dixon)准则

狄克逊(Dixon)准则在处理数据时比较灵活,因为它针对不同次数的测量数据,提供了不同的计算方式来识别异常值。由于具体计算方法较为复杂且多样,读者可根据自身需求自行搜索详细步骤或参考相关统计教材。狄克逊准则的优点在于它能够多次剔除异常值。但缺点也很明显,每次只能剔除一个异常值。如果需剔除更多异常值,就需要对剩余数据重新进行排序和计算,计算量较大。

设所得的重复观测值按由小到大的规律排列:x1,x2,⋯,xn。其中的最大值为xn,最小值为x1。

按以下几种情况计算统计量为γij或γij′:

①3≤n≤7:

γ10=xn−xn−1xn−x1,γ10′=x2−x1xn−x1

②8≤n≤10:

γ11=xn−xn−1xn−x2,γ11′=x2−x1xn−1−x1

③11≤n≤13:

γ21=xn−xn−2xn−x2,γ21′=x3−x1xn−1−x1

④11≤n≤13:

γ22=xn−xn−2xn−x3,γ22′=x3−x1xn−2−x1

6、举例说明

在应用以上各准则判断粗大误差时要注意,若同时有一个以上的测得值的残差vi超出判断界限,只能别除其中∣vi∣最大的那一个数据(如只两个相同的数据超限,也只能剔除其中的任一个)。也就是说,一次只能别除一个数据,之后再按剩下的(n-1)个数据重新计算算术平均值x′ˉ以及vi′和σ′,继续判断另一个可疑数据,直到全部数据无问题为止。那些在前次判断中和被剔除的数据同时超限的次大(或同样大)的数据,在重新计算后,其∣v∣可能不超过判断是界限,所以每次只能别除一个超限的数据。

例:为了了解某恒温室实际温度对标准温度20℃的波动情况,连续对室温进行了15次重复测量,所得结果列于下表,试检査其中有无粗大误差。

解:从表中数据知,第8个测得值可疑。

(1)按3σ准则

∣vi8∣=0.104;3σ=0.033×3=0.099

∣vi8∣>3σ

故可判断t8=20.30℃含有粗大误差,应予别除。再按余下的14个数值计算(表中右方)。

3σ′=3×0.016=0.048

所有14个∣vi′∣,值均小于3σ′,故无再剔除的坏值。

(2)按肖维勒准则

以n=15査表得Zc=2.13。

Zcσ=2.13×0.033=0.07

∣v8∣=0.104>Zcσ

故t8应剔除,再按n=14査表《肖维勒准则中的Zc值》,得Zc=2.10。

Zcσ′=2.10×0.016=0.034

所有∣vi′∣值均小于Zcσ′,故已无坏值。

(3)按格拉布斯准则

以n=15取置信概率pa=0.99,查表《格拉布斯准则中的G值》,得G=2.70。

Gσ=2.7×0.033=0.09<∣v8∣

故t8应剔除,再按n=14,β=0.99查表《格拉布斯准则中的G值》,得G=2.66。

Gσ′=2.66×0.016=0.04

所有∣vi′∣值均小于Gσ′,故无坏值。

(4)按t检验准则

先将可疑值t8除外,按余下的14个数据计算得:

tˉ14=20.411

σ′=0.016

取显著度a=0.01(即置信概率为0.99)。已知n=15,查表《t检验准则中的系数k值》得系数k=3.12,则

kσ′=3.12×0.016=0.05

∣t8−tˉ14∣=∣20.30−20.411∣=0.111>0.05

故可判断数据t8含有粗大误差,应予别除。

再对余下的14个数据继续判断,先提出t7(∣v7′∣最大),

tˉ13=20.4103

σ′′=0.0156

取显著度a=0.01,以n=14查表《t检验准则中的系数k值》得k′=3.17。则

k′σ′′=3.17×0.0156=0.049

∣t7−tˉ13∣=∣20.41−20.39∣=0.02<0.049

故数据中已不含粗大误差。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号