粗大误差四种判别准则的比较和应用_熊艳艳
桃花源记教案-上海金融学院录取分数线
DOI:22-1228.2010.01.008
第23卷第1期
2010年
2月
大学物理实验Vol.23No.1
Feb.2010
PHYSICALEXPE
RIMENTOFCOLLEGE
文章编号:1007-2934(2010)01-0066-03<
br>粗大误差四种判别准则的比较和应用
熊艳艳,吴先球
(华南师范大学,广东广州5100
06)
摘
关键
要:目前数据处理中异常值的剔除方法有多种,并没有统一的规范标准,
分析了判别粗大误差
词:粗大误差;异常值;剔除;判别准则
文献标识码:A
的四种方
法的特点,通过综合归纳给出了应用这些判别准则的建议。
中图分类号:G642.423
粗大
误差是指在测量过程中,偶尔产生的某
些不应有的反常因素造成的测量数值超出正常测
量误差范
围的小概率误差
[1]
>3σ,则可疑值X
i
含有粗大误若X
i<
br>-X
差,应舍弃;
若X
i
-X ≤3σ,则可疑值X
i
为正常值,应
保留。
把可疑值舍弃后再重新算出除去这个值的其
他测量值的平均值和
标准偏差,然后继续使用判
别依据判断,依此类推。
1.2格拉布斯准则
格拉布斯准则
[5-6]
适用于测量次数较少的情
况(n<100),通常取置信概率为95%,对
样本中
仅混入一个异常值的情况判别效率最高。其判别
方法如下:
先将呈正态分布的等
精度多次测量的样本按
从小到大排列,统计临界系数G(a,n)的值为G
0
,
然后分别计算出G
1
、G
n
:
G
1
=(X
-X
1
)σ,G
n
=(X
n
-X )σ(1)
若G
1
≥G
n
且G
1
>G
0
,则X
1
应予以剔除;
若G
n
≥G
1
且G
n
>G<
br>0
,则X
n
应予以剔除;
若G
1
n
,则不存在“坏值”。
然后用剩下的测量值重新计
算平均值和标准
偏差,还有G
1
、G
n
和G
0
,重
复上述步骤继续进行
判断,依此类推。
1.3肖维勒准则
肖维勒准则
于概率P
概率)。
[7-8]
。含有粗大误差的数
据会干扰对实验结果的分析,甚至歪
曲实验结果。
若不按统计的原理剔除异常值,而把一些包含较
大正常误差但不属于异常值的数据
舍弃或保留一
些包含较小粗大误差的异常值,就会错估了仪器
的精确等级。因此,系统检验测量
数据是否含有粗
大误差是保证原始数据的可靠及其有关计算的准
确的前提
[2-3]<
br>。
、格拉布斯准则
[5-6]
排除异常数据有四种较常用的准则,分别是
拉伊达准则
[4]
、肖维勒准则
[7-8]
和狄克逊准则
[1]<
br>。每种判别准则都有其处理方法,
导致用不同准则对异常值判别的结果有时会不一
致。目
前异常值的剔除还没有统一的准则,本文综
合判别粗大误差四种方法的特点,系统归纳各种
准则
的应用,以便更好地发现和判别含有粗大误
差的数据。
1
1.1
四种判别粗大
误差准则的特点
拉伊达准则
拉伊达准则
[4]
是以三倍测量列的标准偏差为<
br>极限取舍标准,其给定的置信概率为99.73%,该
准则适用于测量次数n>10或预先经大量
重复测
量已统计出其标准误差σ的情况。X
i
为服从正
态分布的等精度测量值
,可先求得它们的算术平
均值X 、残差v
i
和标准偏差σ。
收稿日期:20
09-10-26
是建立在频率p=mn趋近
X
i
-X >Z
cσ的前提下的(其中m
是绝对值大于E
c
σ的误差出现次数,P是置信
粗大误差四种判别准则的比较和应用
67
设等精度且呈正态分布的测量值为Xi
,若其
残差v
i
≥Z
c
σ则X
i
可 视为含有粗大误差,此时把
读数X
i
应舍弃。把可疑值舍弃后再重新计算和
继 续使用判别依据判断,依此类推。
1.4狄克逊准则
狄克逊准则
[1]
系,见 图1。
2.2四种判别粗大误差准则的比较讨论
拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数,各判
别准则的统计临界系数各不相同,以拉伊达准则< br>的统计临界系数3为线索,当n=25时,格拉布斯
准则(a=0.01)的统计临界系数刚好到 达3以上,
而当n=185时,肖维勒准则的统计临界系数刚好
也到达3。因此可把总范围分为 以下三个小范
围。
(1)在3≤n<25这个范围内,建议用狄克逊
准则或格拉布斯准 则(a=0.01)来判别可疑数据。
在少量样品时,拉伊达准则的统计临界系数相对
比较大, 不易及时发现异常数据,使用它会比较苛
刻。而肖维勒准则的统计临界系数太小,容易剔
除仅含 有较大正常误差的测量值。因此用可一次
性剔除多个异常值且无需求出样本平均值X 、残
差v
i
和标准偏差σ的狄克逊准则或格拉布斯准
则(a=0.01)来判别可疑数据是合适 的。
(2)在25≤n≤185的范围内,建议用格拉布
斯准则(a=0.05)或肖维勒准则 来判别可疑数据。
统计临界系数最大的是格拉布斯准则(a=0.01),
虽然肖维勒准则的统 计临界系数偏小,但在这一
范围内肖维勒准则可以补充拉伊达准则的不足,
因此判别数据时采用 格拉布斯准则(a=0.05)或
肖维勒准则比较合适。
(3)在测量次数n>185时,建议 采用拉伊达
准则。因为此时肖维勒准则的统计临界系数偏
大,在剔除异常值时容易把含有较小粗 大误差的
数据遗漏掉。
因此,为了更好地对测量数据作出确切的判
断且尽量避免让被剔 除的数据丢失总体信息,可
以采用以下方法:
判别前最好先按照从小到大排列测量数据。
首先怀疑最值,如果最值不是异常值则其他值也
就不会含有粗大误差了。对此四种准则的综合判
别方法,见表1。
是一种用极差比双侧检验来判
别粗大误差的准则。它从测量数据的最值入手 ,
一般取显著性水平a为0.01.此准则的特点是把
测量数据划分为四个组,每个组都有相应 的极端
异常值统计量R
1
、R
2
的计算方法,再根据测量次
数n和所对应的统计临界系数D(a,n)按照以下
方法来判别:
若R
1
>R
2
,R
1
>D(a,n),则判别X
1
为异常
值, 应舍弃;
若R
2
>R
1
,R
2
>D(a,n),则 应舍弃X
n
;
若R
1
2.1
四种判别粗大误差准则的比较
四种判别粗 大误差准则的归纳
实际上教学实验中的测量样本大多比较小,
四种准则所要求的正态分布前提不 容易满足,标
准偏差会由于偏离正态分布而不准确。若不考虑
具体的临界系数与置信水平,这四 种准则的思维
方法都可归纳为:首先计算某组测量值X
1
,X
2
,< br>残差v
i
和标准偏差σ。对X
3
……X
n
的平均值x 、
于第i次测量值,如果
v
i
>kσ(2)
则可判别为含有粗大误差 ,其中k为统计临界系
数。狄克逊准则是用极差比来检测异常值的,它
的统计临界系数与其他准 则不具有可比性
[9]
。
图1拉伊达准则、格拉布斯准则和肖维勒准则在
n≤ 30时的统计临界系数值对比
测量次数范围
3≤n<25
25≤n≤185
n >185
表1综合判别方法
建议使用的准则
除狄克逊准则外,作拉伊达准则、格拉布斯 准
则和肖维勒准则在测量次数3≤n≤250的曲线关
狄克逊准则,格拉布斯准则(a=0.0 1)
格拉布斯准则(a=0.05),肖维勒准则
拉伊达准则
68粗大误差四种判别准则的比较和应用
3结论
参考文献:
[1]雷洪.粗差判别方法
的比较与讨论[J].石油仪器,
1997,11(1):54-64.
[2]
[3]
[4]
[5]
[6]
[7]
[8]
叶川,伍川辉,张嘉怡.
计量测试中异常数据剔除方
法比较[J].计量与测试术,2007,34(7):26-27.
何平.剔除测量数据中异常值的若干方法[J].航空
计测技术,1995,15(1):19-22
.
沙定国.误差分析与测量不确定度评定[M].北京:
中国计量出版社.2003:68-7
6.
梁晋文,陈林才,何贡.误差理论与数据处理[M].
北京:中国计量出版社,1989:
66-68.
刘建,刘文金.应用格罗布斯准则判定测量结果中
的粗大误差[J].设计与研究
,2006:20-21.
张世箕.测量误差及数据处理[M].北京:科学出版
社,1979
:42-46.
王鑫,吴先球,蒋珍美,等.用Origin剔除线性拟合
中实验数据的异常值
[J].山西师范大学学报:自然
科学版,2003,17(1):45-49.
[9]田进军
.可疑数据的剔除判据及其应用[J].1998,
2:41-42.
综上所述,由于四种判别
准则在理论上剔除
异常值是各自相对于某个精度而言的,它们的检
验范围和判别效果不同,在不
同的情况下应用不
同的准则的严格程度不同,但不加比较随便使用
某一种准则来判别测量值是否
含有粗大误差,这
样有时会得到相对不准确的结论,可能把仅包含
正常误差的可疑值剔除了,或
者保留了含有粗大
误差的异常值。本文中的图1直观明了、使用方
便,因此采用本文建议的综合
归纳方法可以使在
数据处理中判别粗大误差有据可依,并使剔除异
常数据的效率有所提高,得出
相对准确的测量计
算结果。
在目前还没有一个适用于所有情况的判别粗
大误差的准则,
因此对数据是否含有粗大误差的
判别仍然是一个需要逐步研究和更多实践的问
题。本文的建议和
尝试,仍需理论研究分析和进一
步完善。
TheGeneralizingApplicati
onofFourJudging
CriterionsforGrossErrors
XIO
NGYan-yan,WUXian-qiu
(SouthChinaNormalUniversit
y,GuangdongGuangzhou510006)
Abstract:Atpresent,
ticleanalyzesthefeaturesoffourwaysofjudginggro
ss
error,andgivingthesuggestionwhichcouldapplyt
hesecriterionsthroughgeneralizingand
integratin
g.
Keywords:Grosserror;abnormalvalue;removing;j
udgingcriterions