标准规范下载简介
T/CECS 20002-2020 城市供水信息系统基础信息加工处理技术指南(完整正版、清晰无水印).pdf简介:
"城市供水信息系统基础信息加工处理技术指南(T/CECS 20002-2020)"是由中国工程建设标准化协会(CECS)发布的一份技术标准。这份指南主要针对城市供水行业的信息系统建设,它详细规定了在采集、处理、存储和分析城市供水基础信息过程中所需的技术方法、规范和流程。它涵盖了信息采集设备的选择、数据清洗算法、信息安全保护措施、数据挖掘与分析技术等方面的内容。
完整正版、清晰无水印的PDF文件,意味着它提供了该技术指南的完整文本,没有模糊、缺页或水印等影响阅读质量的问题。这份指南对于城市供水企业的信息化建设、数据分析决策支持,以及技术人员的技术提升都具有重要的参考价值。
但请注意,由于版权问题,我无法直接提供这份文件,你可能需要通过官方渠道或者购买合法渠道的电子版获取。
T/CECS 20002-2020 城市供水信息系统基础信息加工处理技术指南(完整正版、清晰无水印).pdf部分内容预览:
中国工程建设标准化协会 二〇二〇年八月三日
根据中国工程建设标准化协会《关于印发<2018年第二批协 会标准制订、修订计划>的通知》(建标协字【20181030号)的要求: 编制组经过广泛调查研究,认真总结实践经验,参考国内外的先进 经验,并在广泛征求意见的基础上,制定本指南。 本指南共分为6章,主要技术内容包括:总则、基础信息加工 处理基本流程、基础信息分类编码、基础信息加工处理、基础信息 数据质量保障、数据库系统维护与管理等。 本指南的某些内容可能直接或间接涉及专利,本指南的发布 机构不承担识别这些专利的责任。 本指南由中国工程建设标准化协会归口管理,由山东省城市 供排水水质监测中心负责具体技术内容的解释。本指南在执行过 程中如有意见或建议,请寄至解释单位(地址:济南市历下区奥体 中路5111号;邮编:250000)。 主编单位:山东省城市供排水水质监测中心 中国城市规划设计研究院 参编单位:青岛积成电子股份有限公司 济南水务集团有限公司 杭州绿洁环境科技股份有限公司 力合科技(湖南)股份有限公司 深圳市水务(集团)有限公司 江苏省城镇供水安全保障中心 主要起草人:孙韶华张志果李祥 马中雨 何琴 王达陈峰马金伦 陈兴厅 刘帅 梁涛林国峰戴雄奇 文立群 汤杰
DGJ32∕J54-2006 江苏省建筑施工现场装配式轻钢结构活动板房技术规程潘永强刘红王博涵 主要审查人:谈绍兴林爱武张德跃王秀朵刘士军 张晔明张宝安
第一章总 则 第一节 编制目的 第二节 适用范围 第二章 基础信息加工处理基本流程…· 第三章 基础信息分类编码 . 第一节 基础信息分类 第二节 基础信息编码 第四章 基础信息加工处理 h 第一节 数据采集 b 第二节 数据清洗、转换及装载 8 第三节 数据存储与备份 (12) 第四节 数据分析与展示 (16) 第五章 基础信息数据质量保障 (20 ) 第一节 数据质量 (20) 第二节 数据安全 (22) 第六章 数据库系统维护与管理 ( 23) 第一节 维护内容 (23) 第二节 管理要求 ( 23) 参考资料 25
为有效使用城市供水信息系统中海量的基础信息数据,本 商对基础信息数据的分类、编码、采集、清洗、转换、装载、存储、 分、分析与展示等进行了规范,可指导供水信息系统的设计开发 第二节适用范围
适用于城市供水信息系统的建设与应用,其他系统相关信息 加工处理参照执行。
第二章基础信息加工处理基本流程
为保证城市供水基础信息在同一系统内或不同系统间的交互 与加工处理,基础数据信息的编码应符合下列规定: (1)基础数据信息应按照现行行业标准《城镇供水管理信息系 统基础信息分类与编码规则》CJ/T541和《城镇供水管理 信息系统供水水质指标分类与编码》CJ/T474进行编码。 (2)对于现行行业标准《城镇供水管理信息系统基础信息分 类与编码规则》CJ/T541中未涉及的基础数据信息,按照 CJ/T541的编码体系进行扩展编码,编码方法及原则参 照CJ/T541中第4章的相关规定 (3)对于现行行业标准《城镇供水管理信息系统供水水质指 标分类与编码》CJ/T474中未涉及的水质基础数据信息: 按照CJ/T474的编码体系进行扩展编码,编码方法及原 则参照CI/T474中第5章的相关规定。
第二节数据清洗、转换及装载
一、数据清洗 利用预定义清洗规则或数理统计、数据挖掘等技术将城市供 水信息系统原始数据转化为满足质量要求的数据。 1.结构化数据 结构化数据清洗按照准确性、唯一性、有效性、完整性等原则 并行。水质数据、压力数据、流量数据、抄表数据、收费数据、管线 数据等结构化数据信息的编码是城市供水系统数据身份的唯一识 别。通过库表、缺失值和逻辑错误等清洗方式对不完整、错误、重
(2)缺失值清洗。在线自动监测等具有连续性、易缺失、数据 量大等特点的数据应进行缺失值填充等处理,以保障数据 的完整性。 根据字段缺失值比例和数据内容重要性确定四种类 型的清洗方法: 1)重要性高,缺失率低:通过数值运算、业务知识估计 等手段进行填充。 2)重要性高,缺失率高:通过其他信息系统或渠道取 数填充。 3)重要性低,缺失率低:不做处理或简单填充。 4)重要性低,缺失率高.删除该类数据
缺失值填充方法主要包括以业务知识和经验估计填 充;以同一指标的计算结果(均值、中位数、众位数等)填 充;以不同指标的相关性计算结果填充。 (3)逻辑错误清洗。对结构化数据中不规范、不合理等逻辑错 误的数据信息主要采用下列规则进行清洗。 1)重复性数据。对重复提交、插入等原因造成的数据重复,应 对多余数据进行删除。 2)不合理数据。对超出数值合理范围、计量单位错误等原因 造成的不合理数据,应去除或对数据进行修正。 3)矛盾数据。对于明显不符合逻辑关系的数据,应按照相应 的逻辑或业务规则进行修正。 2.半结构化及非结构化数据 针对半结构化及非结构化数据以保证数据的合法性为主要清 洗目的,包括实验室检测报告、调度值班日志、客户服务工单、相关 政策法规制度文件等,对可能出现的数据重复、不完整、违反业务 规则等问题,将有问题的数据先剔除,根据实际情况调整相应的清 洗操作,有效清除无效数据,保证数据质量。数据清洗处理有多种 形式:格式检查、缺失记录检查、重复记录清除、数据源纠错(原数 据溯源)、记录交叉核对等。 3.多源混合数据 针对结构化数据、半结构或非结构化数据交叉存在DL∕T 5192-2004 水电水利工程施工总布置设计导则,数据信息 具有很强的关联性,其中对于无法进行严格清晰分类的,可考虑通 过以原始格式存储数据的存储库或系统(数据湖)存放多源化数 据;使用大数据技术、技术等建立数据清洗,利用模 型实现数据清洗。 二、数据转换 1.结构化数据 数据源系统与目标系统中格式及粒度等不统一的数据信息: 应结合城市供水管理和分析应用的业务需求,建立相应的转换规
则并根据目标系统数据库类型、数据属性等因素进行转换,常用转 换工具插件可采用传统ETL工具、内存计算Spark、批处理Ma pReduce和流计算Storm等。主要转换方法如下: (1)格式转换。按照目标系统的数据格式对源系统中的数据 进行转换,转换方法有对数转换、平方根转换、倒数变换等。 (2)平滑处理。消除数据中的随机错误和异常数据,主要方法 有聚类方法、回归方法和人机结合检查方法。 (3)泛化处理。采用更抽象(更高层次)的概念来取代低层次或 数据层的数据对象,如将多个相近的采样点泛化到同一个采样点。 (4)规格化处理。消除数值型属性因大小不一而造成的结果 偏差,主要方法有最大最小规格化方法、零均值规格化方法、十基 数变换规格化方法等。 (5)属性构造处理。根据目标数据库需要,结合数据原有属性 集构造新的属性,便于统计分析等。 2.半结构化及非结构化数据 根据城市供水管理和分析应用的业务需求,半结构化及非结 构化数据应分类进行转换处理。 对水质检测、投诉处理、调度值班等业务形成的半结构化数据 (文字文档、演示文档等),应按照数据文件的结构类型特点,创建 半结构化数据与关系数据库的映射关系及对应的文件模板,并通 过专用程序读取半结构化文件的内容,将半结构化数据转换为结 构化数据。 安防监控、管道巡检等业务形成的非结构化数据(文本、图片 视频等)信息可通过搭建文件共享服务器的方式,建立文件索引: 并按照内容属性、时间属性、空间属性、来源属性、格式属性、使用 属性等进行统一分类命名,直接进行文件存储。 三、数据装载 1.结构化数据 装载方式有基本装载、追加装载、破坏性合并和建设性合并
等,装载时应充分考虑模式集成、余、冲突值检测与消除等因素, 装载后数据应满足业务应用、备份容灾及数据共享等需求。 2.半结构化及非结构化数据 半结构化及非结构化数据可按照树形文件形式进行数据装 载,树形文件按照不同文件类型设计,对单个数据压缩装载,对多 个数据打包压缩,并对已装载数据建立索引。
1.结构化数据 供水信息系统基础信息数据具有专业性强、管理要求高等特 点,应用关系型数据库软件进行存储时,宜根据数据属性和业务需 求对数据库表和数据分别进行分类设计和标识。存储时间应根据 数据重要性、数据量、存储容量及业务需求等因素确定,原则上不 低于6年。 (1)数据库表设计分类。设计数据库表时DB34∕T 3750-2020 综合管廊运维数据规程,应按照数据来源、 类别、数据特征及应用场景等进行分类,示例如下: 1)业务基础数据库表。包括城市供水管理基础信息、供水单 位(企业)基础信息、水厂基础信息、在建项目信息等。 2)设备基础数据库表。包括检测仪表、设备设施和安防监控 设施等。 3)监测数据库表。包括通过人工录入、在线采集、跨系统抽取 和网络爬虫等方式获取的水位、流量、水量、水质等动态变化的数 据。 4)业务报表类数据库表。包括日报、周报、月报、季报、年报等 统计分析库表。 (2)数据分类标识。为便于数据的分析统计及数据异常的判 断,根据业务需求可对关键数据添加分类标识,标识符应具有唯
数据分析展示内容主要包括水质监测、生产经营及其他业务 (含专项)等基础信息数据。可采用大数据、GIS、、数字 李生、数字媒体、数据钻取等技术,对基础信息数据进行检索、查 询、统计、综合分析及可视化展示。 一、结构化数据分析 1.水质监测数据 水质监测数据主要包括实验室检测数据和在线自动监测数 据。水质监测数据分析主要包括检索查询、合格判定、汇总、趋势、 对比、均值、极值统计、相关性、预测、染等专项或综合分析。 (1)检索查询。对数据信息按照时间、地点、指标、类型、是否 超标等数据属性进行单一或组合统计分析。 (2)合格判定。对数据信息按照国家及行业等相关标准规范 进行符合性判定分析,并可以进行汇总分析。 (3)趋势分析。对数据信息按照选定的时间段进行季节性、周 期性等变化规律分析。 (4)对比分析。对两个或多个地点的同一指标值、合格率、超 标率、平均值等按照选定的时间段进行比较分析。
(2)数据列表/报表模式。可按照单位、类型、名称、时间、空间 等属性进行查询、排序展示等,并可根据业务需求设置超标报警条 件,通过突出显示等形式进行报警展示。 (3)数据曲线模式。可按照单位、类型、名称、时间、空间等属 性绘制专题分析曲线进行展示。 (4)数据卡片模式。可按照单位、类型、名称、时间、空间等属 性设置数据卡片进行展示,展示数据为实时数据时宜循环更新播 放。 2.半结构化及非结构化数据 半结构化数据宜转换为结构化数据进行展示,具体展示方式 参照“1结构化数据”。 非结构化数据可按内容属性、时间属性、空间属性、来源属性、 格式属性、使用属性建立文件树形索引进行分类展示,