GB/T 6380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdf

GB/T 6380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdf
仅供个人学习
反馈
标准编号:GB/T 6380-2019
文件类型:.pdf
资源大小:0.9 M
标准类别:建筑标准
资源ID:57016
免费资源

GB/T 6380-2019标准规范下载简介

GB/T *380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdf

GB/T *380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdf简介:

GB/T *380-2019 标准全称为《数据的统计处理和解释 第1部分:极值分布样本离群值的判断和处理》,是中国国家标准中关于数据统计分析和处理的一份技术规范。该标准主要关注在统计分析过程中,如何识别和处理极值分布样本中的离群值,即那些显著偏离其他观测值的数据点。

离群值的判断和处理在数据分析中至关重要,因为离群值可能由于测量误差、数据录入错误、极端情况或者异常事件造成,它们可能对统计结果产生重大影响。GB/T *380-2019提供了方法和原则,帮助统计人员识别离群值,包括使用统计方法(如Z-score、箱线图等)判断异常数据,以及根据业务背景和实际需求决定如何处理这些离群值,如剔除、修正或者保留。

该PDF文件可能包含了详细的操作指南、定义、方法、案例研究以及相关公式和解释,旨在确保数据处理的科学性和准确性。阅读此文档的人员可能包括数据分析师、科研人员、质量控制人员等,他们需要遵循标准进行数据处理,以确保结果的可靠性和有效性。

GB/T *380-2019 数据的统计处理和解释 Ⅰ型极值分布样本离群值的判断和处理.pdf部分内容预览:

国家市场监督管理总局 发布 国家标准化管理委员会

GB/T*3802019

范围 规范性引用文件 术语、定义和符号: 3.1术语和定义 3.2符号 离群值判断 *.1 离群值的来源与判定 *.2 检出离群值个数的上限 *.3 单个离群值情形 *.* 多个离群值情形 离群值处理 5.1 处理方式 5.2 处理规则 5.3 备案 单个离群值的判断规则 *.1 检验方法的选择 *.2 狄克逊(Dixon)检验法 *.3 欧文(Irwin)检验法 多个离群值的判断规则 7.1检验步骤 7.2多个离群值检验示例 附录A(规范性附录)狄克逊检验的临界值表 附录B(规范性附录)欧文检验的临界值表 参考文献

GB/T*3802019

GB/T 50559-2018标准下载GB/T*3802019

从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不 开统计方法。统计学是研究数字资料的整理、分析和正确解释的一门学科。人们各自从不同的来源取 得各种数字资料,这些数字资料通常都是杂乱无章的,经过整理和简缩才能利用,使用完善的统计方法 就可使数据整理、排列得有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出来,这 详既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益。 根据收集到的样本观测值,可以大体上确认样本来自为某种分布。这时发现样本中的一个或几个 见测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。是否为实际的离群值,需要统计检 验。在离群值的检验中特别要注意数据来自哪一种基本分布,假定来自工型极值分布与假定来自正态 分布在检验时是非常不同的,对分布的错误假定会导致观测值被错误地归类为离群值。 国家标准《数据的统计处理和解释》包含以下各项: 统计容忍区间的确定(GB/T3359); 均值的估计和置信区间(GB/T33*0); 在成对观测值情形下两个均值的比较(GB/T33*1); 二项分布参数的估计与检验(GB/T*088); 泊松分布参数的估计与检验(GB/T*089); 正态性检验(GB/T*882); 正态样本离群值的判断和处理(GB/T*883); 正态分布均值和方差的估计与检验(GB/T*889); 正态分布均值和方差检验的功效(GB/T*890); I型极值分布样本离群值的判断和处理(GB/T*380); T分布(皮尔逊Ⅲ型分布)的参数估计(GB/T8055); 指数样本离群值的判断和处理(GB/T805*)

GB/T*3802019

在允许检出离群值的个数大于1的情况下,重复使用*.3规定的检验规则进行检验,并按下述规则 决定检验停止的时机: a)若没有检出离群值,则整个检验停止; b)若检出离群值,当检出的离群值总数达到上限(*.2)时,检验停止,否则,采用相同的检出水平 和相同的规则,对除去已检出的离群值后余下的观测值继续检验,

处理离群值的方式有: 保留离群值并用于后续数据处理; b) 在找到实际原因时修正离群值,否则予以保留; C 剔除离群值,不追加观测值; d)剔除离群值.并追加新的观测值或用适宜的插补值代替

对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据。应根据实际问 题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值 的风险,以确定实施下述三个规则之一: a)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正。 b)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正 统计离群值。在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检 验它是否为统计离群值。若某次检出的离群值为统计离群值,则此离群值及在它前面检出的 离群值都应被剔除或修正。 c)检出的离群值(统计离群值和歧离值)都应被剔除或修正

除或修正的观测值及其理由应予记录,以备查询

*单个离群值的判断规则

当样本量5≤n≤30时,使用狄克逊(Dixon)检验法;当样本量30

*.2狄克逊(Dixon)检验法

GB/T*3802019

(α) T()(1) /

*.2.2狄克逊(Dixon)检验法示例

321.**.319.*2.320.**.319.51.329.73.320.*

根据经验,可以认为总体为I型极值分布。假如使用者关心的是数据中是否有上侧离群值,可 节中的方法。 本例中,n=*,最小观测值为(1)=319.51、最大观测值为(*)=329.73、次大观测值为(5)=321.** (1)计算统计量D,的值

确定检出水平α=0.05,按照表A.1查出D,的临界值D.95(*)=0.*81。由于D。=0.8092>0.*81 Do.95(*),故判定(*)=329.73为离群值。 对于检出离群值(*)=329.73,进一步给出剔除水平α*=0.01,按照表A.1查出D,的临界值 Do.9g(*)=0.79*,由于D。=0.809>0.79*=D0.99(*),故判断r(*)=329.73为统计离群值。 经复核查实,此数据系误记,实际值为319.73

*.2.3狄克逊检验法示例2

D20 = (20) (18) (—1nl.2)—(ln59.*) ln59.*—1n1.2 *.0880.182 0.*** (20) (1) (—lnl.2)—(—ln*28.*) ln*28.*—lnl.2 *.0*00.182 确定检出水平α=0.05,按照表A.1查出D2临界值0.558。由于 Dan = 0.*** > 0.558 = Do.s (20)

GB/T*3802019

GB/T*3802019

因此拒绝原假设,可以判定(20)=一ln1.2=一0.182确实是离群值,即可以判定w(1)=1.2确实是 离群值。 对于剔除水平α=0.01,按照表A.1查出D2o临界值0.*5*。由于 D20 = 0.*** > 0.*5* = Do.99(20) 因此拒绝原假设,即可以判定(20)=一1n1.2=一0.182是统计离群值,即可以判定W(1)=1.2是统 计离群值。经仔细检查,发现此电容器是在加压过程中绝缘层被击穿,不是正常的老化失效,因此 U1=1.2是统计离群值,应予以剔除

*.3欧文(Irwin)检验法

式中s按式(3)计算:

式中r按式(*)计算

.3.2欧文(Irwin)检验法

某地某河流年最大径流量的逐年观测数据如下(单位:km/s):

某地某河流年最大径流量的逐年观测数据如下(单位:km"/s): 1.*9 1.22 0.75 1.2* 1.73 1.7* 3.09 1.57 1.97 2.23 2.03 1.58 0.90 2.*0 1.*5 1.9* 2.30 1.79 1.*8 2.22 1.91 3.0* 2.08 1.0* *.31 1.5* 1.88 2.10 2.02 1.7* 1.18 2.12 1.38 0.90 1.*5 1.78 1.97 2.27 2.3* 2.**

经验表明此年最天径流量的逐年观测数 型极值分币,而要判断最大值3(0)三*.3」 是否为离群值 对上述观测数据稍加整理可以看出,其最小观测值为(1)=0.75、最大观测值为*0)=*.31、次大 现测值为r(39)=3.09。对除去最小观测值r(1)、最大观测值r(*0)后的所有观测值,先按式(3)计算s的 直,再按式(2)计算统计量I,的值:

确定检出水平α=0.05,按照表B.1查出临界值1.95(*0)=2.88。由于I*o=2.*3<2.88=I0.95(*0 能判定α((*0)=*.31是离群值。

7多个离群值的判断规则

GB/T*3802019

当样本中可能有多个离群值需要检验时,按照*.*的规则执行。具体判断离群值的方法,可根据样 本量的大小分别按*.2,*.3的步骤实施,

7.2多个离群值检验示例

从某种绝缘材料中随机地取出11个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:h): *.09,17.31,*0.78,*2.1*,**.15,70.*7,71.85,75.50,79.35,80.00,88.01 经验表明这种绝缘材料的寿命T服从工型极小值分布,因此X三一T,服从型极值分布。 *.09,若规定检出离群值个数上限为2,可采用本条的方法, 首先,对x(11)是否是离群值进行判断,因为n=11,按式(1)计算统计量D1i的值:

(11) (9) (—*.09)—(—*0.78) 0.*75 —*.09)—(—88.01)

确定检出水平α三0.05,按照表A.1查出临界值D0.95(11)三 >0.*5* Do.9s(11),故判定x(11)=一*.09为离群值,即判定原数据中*.09为离群值。 对于检出的离群值3(11,三一*.09,确定剔除水平α*三0.01,按照表A.1查出临界值D0.99(11) 0.7*8,由于D11=0.*75<0.7*8=D0.9g(11),故不能判定α(11)=一*.09是统计离群值,即可以认为 (11)=一*.09为歧离值(即认为原数据中*.09为歧离值)。 再对余下的10个数据继续检验,此时样本量变为10.按式(1)计算统计量D1.的值

仍取检出水平α=0.05,按照表A.1查出临界值D0.95(10)=0.*7*,由于D1=0.*3*<0.*7*= D。.95(10),故不能认为(10)一17.31为离群值(即不能认为原数据中17.31是离群值)。 至此整个检验停止。

GB/T*3802019

水利工程咨询、勘测设计费收费标准及计算程狄克逊检验的临界值表见表A.1。

附录A (规范性附录) 狄克逊检验的临界值表

表A.1狄克逊检验的临界值表

附 录B (规范性附录) 欧文检验的临界值表 欧文检验的临界值表见表B.1

GB/T*3802019

《城镇供热厂工程项目建设标准 建标112-2008》表B.1欧文检验的临界值表

GB/T*3802019

©版权声明
相关文章