GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf

GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:18.3 M
标准类别:电力标准
资源ID:48396
免费资源

标准规范下载简介

GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf简介:

,由于我是一个的,我无法直接查看或提供PDF文件的内容介绍。但是,我可以根据你提供的标题信息来给你一些一般性的了解。

"GB/T 38667-2020 信息技术 大数据 数据分类指南"是中国国家标准,全称为《信息技术 大数据 数据分类指南》。这个标准可能是关于大数据处理和管理中数据分类的规范。它可能定义了数据分类的原则、方法、规则,以及如何根据数据的性质(如类型、来源、重要性等)进行组织和管理,以支持大数据的有效利用和分析。这个指南可能对大数据领域的从业人员、开发者、数据分析师等有指导作用,帮助他们理解和实施数据分类的最佳实践。如果你需要了解更详细的内容,建议查阅正式的PDF文档或咨询相关领域的专家。

GB/T 38667-2020 信息技术 大数据 数据分类指南.pdf部分内容预览:

7.3.2按业务归属分类

按业务归属分类是指根据数据所属的业务类型对数据进行

7.3.2.2分类要素

按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务,如商品交易、会员注册、人才招聘等。

按业务归属分类的要素包括: a)分类主体的业务类型划分,如生产类业务、管理类业务、经营分析类业务; b)生成数据的业务所属的职能,如产品研发、市场营销、财务管理、人力管理等; c)生产数据的具体业务G353-4~6 钢筋混凝土屋面梁(2004年合订本)[混凝土构件],如商品交易、会员注册、人才招聘等。

7.3.2.4适用场景

7.3.3按流通类型分类

通类型分类是指根据数据在流通交易过程中的

7.3.3.2分类要素

按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; ) 交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e) 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

按流通类型分类的要素包括: a) 数据权责,即数据需求方可获取的数据权益,如所有权、经销权、使用权、可复制权等; b)计费方式,即数据供应方和数据需求方之间计算数据交易费用的方式,如按使用量计费、按使 用时长计费等; c)交付内容,即数据供应方向数据需求方提供的数据内容,如原始数据集、数据分析报告等; d) 行业主题,即流通数据所属的行业领域,如农业、林业、医疗、交通、科研等; e 敏感程度,即流通数据是否涉及国家秘密、行业秘密、企业秘密或个人隐私等,如公开数据、脱

敏数据、涉密数据等。

按流通类型可划分为:可直接交易数据、间接交易数据、不可交易数据等

7.3.3.4适用场最

7.3.4按行业领域分类

领域分类是指根据数据内容所属的行业领域范

7.3.4.2分类要素

按行业领域分类的要素包括: a)数据产生行业,即产生数据的活动所属的国民经济行业; b)数据应用行业,即分析和使用数据的活动所属的国民经济行业。

7.3.4.4适用场景

按行业领域分类的适用场景,如公安、气象、水文等行业大数据分析等。

7.3.5按数据质量分类

居质量分类是指根据数据的质量差异对数据进行

7.3.5.2分类要素

按数据质量分类的要素包括: a) 数据的准确性,即数据是否存在异常、错误或过时; 数据的完整性,即数据是否存在缺失及缺失程度 数据的一致性,即数据内容是否遵循统一规范; d)数据的及时性,即所需数据是否及时到达目标应用; e)数据的重复性,即是否存在大量重复数据。

按数据质量可划分为:高质量数据、普通质量数据、低质量数

7.3.5.4适用场量

按数据质量分类的适用场景,如根据不同数据质量的比例确定数据利用的价值和数据质量管 作难易程度等,

7.4安全隐私保护维度

安全隐私保护维度分类是根据数据内容敏感程度

按安全隐私保护维度分类的要素包括: a)数据的敏感性,即数据本身或其衍生数据是否涉及国家秘密、企业秘密或个人隐私; b) 数据的保密性,即数据可被知悉的范围; 数据的重要性,即数据未经授权披露、丢失、滥用、篡改或销毁后对国家安全、企业利益或公民 权益的危害程度。

按数据安全隐私保护维度可划分为:高敏感数据、低敏感数据、不敏感数据等。

按安全隐私保护维度分类的适用场景,如根据数据内容敏感程度确定大数据应用边界、数据保护策 略、数据脱敏方案等。

每个层级分为若干类别。同一分支的同层级类别之间构成并列关系,不同层级类别之间构成兼属关 系。同层级类别互不重复,互不交叉。 线分类法适用于针对一个类别只选取单一分类维度进行分类的场景

8.1.2确定分类类别之间关系

采用线分类法确定分类类别之间关系的过程包括 a)确定一个分类维度; b)确定该分类维度的分类类别; 针对每一个分类类别:如果该分类类别不需要再进一步划分子类,则转d)步,否则确定该分类 类别进行子类划分的分类维度,转b)步; d)所有分类类别均不需进一步划分,则分类类别之间关系确定。 注:上述过程完成后,将形成一棵分类类别关系树。树的叶节点为最终的分类项,通常称为基本类别;其余节点为 中间类别。

线分类法的特点包括: a)层次性好,能较好地反映类别之间的逻辑关系; b)实用方便,便于机器处理信息;

c)结构弹性较差,分类结构一经确定,不易改动; d)效率较低,当分类层次较多时,影响数据处理速度

面分类法是将所选定的分类对象(即本标准界定的数据),依据其本身的固有的各种属性或特征,分 成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。将某个面中的一种类别和另 外的一个或多个面的一种类别组合在一起,可以组成一个复合类别。 面分类法是并行化分类方式,同一层级可有多个分类维度。面分类法适用于对一个类别同时选取 多个分类维度进行分类的场景。

8.2.2确定分类类别之间关系

采用面分类法确定分类类别之间关系的过程包括: a)确定分类对象的若干个特征面,即分类维度,每一个分类维度构成一个分类面。 b)确定分类面的排列顺序,应当按照分类维度的重要性或使用频率的高低由左向右进行排列。 ) 划分每一个分类维度的分类类别。为每一个分类维度确定一个分类规则,并接此规则划分各 个分类维度的分类类别。 d)通过上述步骤所得到的各个面的类别将分类对象划分成了若于个对象类。

面分类法的特点包括: a) 弹性较大,一个“面”内类别的改变,不会影响其他的“面”; b)适应性强,可根据需要组成任何类别; c)易于添加和修改类别; d) 可组配的类别很多,但实际应用的类别不多。

混合分类法是将线分类法和面分类法组合使用,克服这两种基本方法的不足,得到更为合理的分 类。混合分类法的特点是以其中一种分类方法为主,另一种做补充。混合分类法适用于以一个分类维 度划分大类、另一个分类维度划分小类的场景。

混合分类法的优点包括: a)可以根据实际需要,对两种分类方法进行灵活的配置,吸取两种分类方法的优点; b)适应一些综合性较强、属性或者特征不是士分明确的数据分类。

A.1业务场景和分类视

根据本标准中提出的分类过程、分类视角、分类维度和分类方法,以铁路大数据为例,进行大数据分 类实践和验证。 铁路大数据涵盖铁路勘测设计、建设和运营等各阶段,在铁路数据目录梳理、铁路数据交换共享、铁 路数据建模分析、铁路数据安全保护等铁路大数据管理场景下均需对铁路大数据进行分类。 对铁路大数据进行分类的视角是规范国铁集团、铁路局两级数据管理的相关标准,同时规范铁路数 据与外部数据交换共享的类型等

GB/T 50528-2018标准下载A.2分类范围、分类维度和分类方法

铁路大数据分类范围包括由铁路客运、物流、基础设施、移动设备、工程建设、资产经营、企业管理 失路业务领域的结构化、非结构化数据所汇集而成的数据集合。 分类维度选择按结构化特征分类、按产生来源分类、按产生频率分类、按业务归属分类。 分类方法采用以线分类法为主、面分类法为辅的混合分类法。

A.3分类实施和分类结果

在进行铁路大数据分类实施时,考虑到铁路大数据的多源性和异构性等特点,首先,采用线分类法, 择按结构化特征、按业务归属、按产生来源和按产生频率等维度对铁路大数据进行大类划分;其次,针 具体的某一大类数据,采用面分类法,选择按产生来源、使用标记等维度进行小类划分。 具体分类过程如下: a)第一级分类: 1)按结构化特征分类,将铁路大数据分为结构化数据和非结构化数据两大类。 b)第二级分类: 1)针对结构化数据,按业务归属分类,分为主数据、事务数据和分析数据; 2)针对非结构化数据,按产生来源分类,分为文本数据和多媒体数据。 c) 第三级分类: 1)针对事务数据,按产生频率分类,分为实时数据和非实时数据; 2)针对文本数据,按业务归属分类,分为法律数据、制度数据、办公数据、事务数据。 d) 第四级分类: 1)针对第三级分类结果和部分第二级分类结果,进一步按业务归属分类,形成第四级分类。 分类结果如图A.1所示,

在进行铁路大数据分类实施时,考虑到铁路大数据的多源性和异构性等特点,首先,采用线分类 按结构化特征、按业务归属、按产生来源和按产生频率等维度对铁路大数据进行大类划分;其次 其体的某一大类数据,采用面分类法,选择按产生来源、使用标记等维度进行小类划分。 具体分类过程如下

图A.1铁路大数据线分类方法示例

经过四级线分类法已将铁路大数据划分到具体业务层面,而根据实际应用需求,需采用面分类法将 数据进行进一步地细分。主数据中的固定设施类数据按业务归属分类(见图A.2实线箭头),可分为车 站主数据和专用线主数据,以专用线主数据为例,介绍面分类过程。 针对专用线主数据,可分别按产生来源和使用标记这两个“面”进行分类,如图A.2虚线箭头所示: a)按产生来源分类,即根据产生数据的专用线对数据进行分类,分类实例如客运专用线主数据 货运专用线主数据等; b 按使用标记分类,即根据数据使用标记对数据进行分类,分类实例如A类主数据、B类主数 据、C类主数据等。 固定设施类主数据的面分类结果如图A.2所示,

长螺旋钻机成孔压灌混凝土护坡桩施工工艺图A.2铁路大数据面分类示例

©版权声明
相关文章