标准规范下载简介
T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf简介:
"T/31SCTA 003-2017"是中国工业和信息化部下属的标准化技术委员会发布的关于工业大数据平台技术规范的标准。这个标准专注于工业大数据平台,它详细规定了工业环境中的大数据采集、处理、存储、分析和应用的技术要求。
在数据处理部分,该规范强调了以下几点:
1. 数据采集:平台需要能够从各种工业设备、传感器和其他来源高效地收集大量、实时的数据,包括结构化、半结构化和非结构化的数据。
2. 数据清洗:对收集的数据进行预处理,包括去除异常值、填充缺失值、数据格式转换等,以保证数据质量。
3. 数据存储:平台需要提供高效、安全的存储解决方案,以支持大规模数据的存储和管理。这可能包括分布式文件系统、数据库或数据湖等。
4. 数据处理和分析:平台应具备实时和批量数据处理能力,能够进行数据挖掘、统计分析、预测建模等,以支持决策支持和业务优化。
5. 数据可视化:提供直观的报告和可视化工具,帮助用户理解和解读大数据,以便于业务理解和决策。
6. 安全性与隐私保护:平台需严格遵守数据安全和隐私保护法规,确保数据在采集、处理和存储过程中的安全性。
总的来说,T/31SCTA 003-2017 是为了指导工业大数据平台的建设,使其能够有效地利用大数据资源,提升工业生产效率和决策能力。
T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf部分内容预览:
工业大数据平台技术规范
工业大数据平台技术规范 数据处理
本标准规定了工业大数据中数据处理的术语和定义、数据处理的流式计算、分布式离线分析、分布 式在线分析、表达式计算的要求等。 本标准适用于工业大数据平台的设计、开发、选型和实施GB 51305-2018-T标准下载,可作为企业选择或评价工业大数据平台 时的评测依据。 本标准的使用者包括独立软件测试机构、工业大数据平台相关的软件产品开发组织、实施及咨询服 务机构等。与工业大数据平台开发有关的其他领域亦可参照使用。
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 牛。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 SJ/T11310一2005信息设备资源共享协同服务第1部分:基础协议 T/31SCTA001工业大数据平台技术规范数据采集接人 T/31SCTA002工业大数据平台技术规范数据存储
下列术语和定义适用于本文件。 3.1 表达式计算服务formulacalculationservice FCS 提供基于表达式配置解析的计算服务,具备强大的表达式解析引擎,可以灵活配置表达式计算调用 方式,并内置丰富的计算函数库。
下列术语和定义适用于本文件。 3.1 表达式计算服务 formulacalculationservice FCS 提供基于表达式配置解析的计算服务,具备强 方式,并内置丰富的计算函数库。
下列缩略语适用于本文件。 CNN:卷积神经网络(ConvolutionalNeuralNets) DBN:深度置信网(DeepBeliefNets)。
数据处理应包括流式计算、分布式离线分析、分布式在线分析和表达式计算分析等,以满足不同
景下的数据处理分析需求
流式计算应是一个分布式、高容错的实时流处理计算系统,可用于在线实时分析、在线机器学习、持 续计算、分布式远程调用和ETL等领域。
5.3分布式离线分析要求
分布式离线分析应采用Master/Slave架构,主要由Client、JobTracker、TaskTracker和Task等组 件组成,每个组件的功能要求如下: a)Client:用户编写的分布式离线分析程序通过Client提交到JobTracker端,同时用户可通过 Client提供的一些接口查看作业运行状态。在Hadoop内部用“作业”(Job)表示分布式离线 分析程序。一个分布式离线分析程序可对应若干个作业,而每个作业会被分解成若干个 Map/Reduce任务(Task); b)JobTracker:JobTracker实现资源监控和作业调度功能。JobTracker监控所有TaskTracker 与作业的运行状态,一旦发现异常情况后,则转移相应的任务至其他节点,同时JobTracker会 跟踪任务的执行进度、资源使用量等信息,并将这些信息传送至任务调度器(Task Scheduler),而任务调度器则会在资源出现空闲时,选择合适的任务使用这些资源。在 Hadoop中任务调度器是一个可插拔的组件,用户可以根据自已的需要设计相应的任务调 度器; c)TaskTracker:TaskTracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的 运行进度传给JobTracker,同时接收JobTracker发送过来的命令并执行相应的操作(如启动 新任务、关闭任务等)。TaskTracker使用"slot"等量划分本节点上的资源量。“slot"代表计算 资源(CPU、内存等)。一个Task获取到一个slot后才有机会运行,而任务调度器的作用就是
T/31SCTA 003—2017
将各个TaskTracker上的空闲slot分配给Task使用。slot分为Mapslot和Reduce slot两 种,分别供MapTask和ReduceTask使用。TaskTracker通过slot数目(可配置参数)限定 Task的并发度; d)Task:Task分为MapTask和ReduceTask两种,均由TaskTracker启动。HDFS以固定大 小的block为基本单位存储数据,而对于MapReduce而言,其处理单位是Split。Split是一个 逻辑概念,它只包含一些元数据信息,如数据起始位置、数据长度、数据所在节点等。它的划分 方法完全由用户自已决定。但Split的多少决定了MapTask的数目,因为每个Split只会交 给一个MapTask处理。
5.4分布式在线分析要求
分布式在线分析应基于Spark实现分布式在线分析任务的设计运行。
分布式在线分析应采用分布式计算中的Master/Slave架构。Master作为整个集群的控制器实现 整个集群的正常运行;Slave上运行的Worker相当于是计算节点,接收主节点命令与进行状态信息, park主要包括如下组件:ClusterManager、Worker、Driver、Excecutor、SparkContext、RDD、DAG cheduler、TaskScheduler和SparkEnv等。 分布式在线分析架构中应提供的基本组件如下: a)ClusterManager:在Standalone模式中即为Master(主节点),它控制整个集群,并监控 Worker。在YARN模式中为资源管理器; b)Worker:Slave(从节点)的功能为控制计算节点、启动Executor或Driver等。在YARN模式 中为NodeManager,功能为控制计算节点; C) 1 Driver:功能为控制一个应用的执行以及运行Application的main()函数并创建 SparkContext。Driver程序是应用逻辑执行的起点,负责作业的调度,即Task任务的分发; 在执行阶段,Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机 器,同时Executor对相应数据分区的任务进行处理; d)Executor:执行器,负责任务的执行。它是在Workernode上执行任务的组件,用于启动工作 线程以运行任务。每个Application拥有独立的一组Executors; e)SparkContext:是整个应用的上下文,并控制应用的生命周期; f) RDD:是Spark的基本计算单元。一组RDD可形成执行的有向无环图RDDGraph; g)DAGScheduler:根据作业(Job)构建基于Stage的DAG,并提交Stage给TaskScheduler; h)TaskScheduler:将任务(Task)分发给Executor执行; i) SparkEnv:线程的运行环境设置,以存储线程在运行时对关键组件的引用。 分布式在线分析在任务执行的过程中和其他组件协同工作以确保整个应用的顺利执行。其任务执 行流程如下: a)Client提交应用; b)Master找到一个Worker启动Driver; c)Driver向Master或者资源管理器申请资源; d)将应用转化为RDDCraph:
a)Client提交应用; b)Master找到一个Worker启动Driver; c)Driver向Master或者资源管理器申请资源; d) 将应用转化为RDDGraph; e) 由DAGScheduler将RDDGraph转化为Stage的DAG,并提交给TaskScheduler;
TaskScheduler提交任务给E
FCS应基于Spark分布式计算技术,把海量结构化、半结构化信息处理技术和Hadoop架构进行有 效集成,实现基于OTS和PDS的面对过程数据和历史结构化数据的表达式计算服务。FCS应通过灵 活的触发调度规则、多种数学函数和统计函数、强大的并行任务调度控制TCHES 46-2020 区域节水评价方法(试行).pdf,以帮助用户实现数据的价值 挖掘和效益增长。
FCS应提供基于触发器配置的定时和定周期两种触发方式的触发器调度机制,以满足不同调度需 要。触发规则应支持秒级的调度配置。单个触发器应可提供给不同的调度任务使用,并可以实时变更 调度任务的运行周期。具体触发规则应包括: a)定时触发。定时触发机制支持按指定日、月、年的具体触发时刻,可以精准控制调度任务的执 行时间; b)定周期触发。提供定周期的触发方式,并支持秒级触发
5.5.2.2计算任务
FCS应提供基于任务的表达式计算功能。在设置计算任务时,FCS应可以设定输入和输出方式、 内含多种函数和统计配置规则,具体功能应包括: a)基于PDS的过程统计功能。该功能输入过程数据(如工业现场设备产生的时序数据),支持通 配符的时间配置规则,可灵活设置统计对象的输人范围和输出时间戳。FCS应支持PDS模板 配置功能,以节省繁琐重复的计算任务配置操作; b)灵活的操作选项。提供调度任务的实时启停、手动执行功能。手动执行功能可提供用户自定 义的时间输入,并可修正表达式计算的历史计算结果; c)多种统计运算函数。支持逻辑运算函数、三角/反三角函数、(含过滤条件的)最大/小值统计、 (含过滤条件的)均值统计、(含过滤条件的)求和统计、以及其他常用的数学函数,可实现复杂 的表达式计算任务
5.5.2.3多租户隔离
FCS应提供多租户隔离功能,每个租户可以创建专属的调度任务进行统计分析,不同租户的数 隔离的,不同租户之间的访问可通过权限进行访问控制
5.5.2.4Web管理功能
FCS提供的Web管理功能应包括: a)触发器管理。提供触发器的添加和删除功能,通过该功能可以快速配置触发器调度规则; b)任务管理。提供调度任务的创建和删除功能DLT1265-2013 电力行业焊工培训机构基本能力要求,支持不同的数据源配置以及复杂的表达式配置 功能; c) 1 历史查询功能。提供对任务执行结果的查询功能,可对任务计算结果和计算异常情况进行查 看和分析定位