标准规范下载简介
GY/T 339.2-2020 有线电视网络大数据技术规范 第2部分:平台要求.pdf简介:
GY/T 339.2-2020 有线电视网络大数据技术规范 第2部分:平台要求.pdf部分内容预览:
GY/T339.2—2020SSD固态盘(Solid StateDisk)XML可扩展标记语言(ExtensibleMarkupLanguage)5概述大数据平台实现对运营机构经营和系统运行维护过程中产生的各类大数据的采集、接入、处理、存储、分析、展示、共享和管理,为大数据消费者提供数据和服务,以及为运营机构间的数据交换提供统一接口。图1采用GB/T35589一2017中关于大数据参考体系架构的定义,采用角色、活动、组件等逻辑构件描述有线电视网络大数据平台(以下简称大数据平台或平台)的组成和业务逻辑。关于大数据参考体系架构,以及角色、活动、组件的描述见附录A。门户服务精准营销精细服务精益网运收视评价企业合作大数据数据共享应用运维管理数据展示数据开放数据能力建设服务能力展现/申请/运营有线电视网络大数据源例行操作运维管理数据上报BSS域数据运行维护子系统加载离高线分析流式分析OSS域数据资源管列式数据库转换预交互式分析支撑组件理框架据MSS域数据处清洗图数据库数据一批处理内存计算平台侧数据抽取等保管理关系数据库存储流处理图计算计算等保定级其他框架文件系统理定级测评批流混合计算网关输入API翰出API采集展示采集配置C采集通信安全元数据集数据源配置置实时采集与采集监控管接入批量采集边界安全格式转换计算安全业务安全基础基础系统安全机房设施广计算资源广存储资源网络资源配套资源子系统安全运行子系统图例:数据流组件活动(角色)子系统图1大数据平台示意图大数据平台由数据核心子系统、基础资源子系统、安全运行子系统和运行维护子系统组成。数据核心子系统是大数据平台的核心组成部分,由数据采集接入、数据存储、数据处理、数据分析,数据服务、资源管理等框架组成,负责实现数据输入、计算处理和输出功能,以及对外开放大数据平台的数据服务功能。基础资源子系统为大数据平台提供机房、计算资源、存储资源、网络资源等基础服务,安全运行子系统和运行维护子系统为数据处理提供基本保障。大数据平台应支持采集、接入、处理运营机构的BSS、OSS、MSS数据,广告、媒资、用户收视行为、用户体验数据,以及网管、门户网站等数据,具体支持的数据内容如图2所示。上传到大数据平台的数据,其格式和交互方式应与GY/TXXX.1一XXXX的要求相符,例如大数据平台应具备采集接入符合GD/J0752018要求的数据。3
GY/T 339. 22020
6. 1. 4 性能要求
a 采集接入实时数据时,应具备实时接入全网实时数据的能力,并在不超过3s内将接收的实时 数据存入大数据平台的数据存储系统; b 采集接入BSS离线数据时,应具备1h内完成当日增量数据接入的能力; C 采集接入OSS离线数据时,应具备1h内完成当日增量数据接入的能力; d 采集接入MSS离线数据时,应具备1h内完成当日增量数据接入的能力; 采集接入其他离线数据时,应具备1h内完成当日增量数据接入的能力。
川87S301 硬聚氯乙烯塑料管排水系统卫生设备安装图集6. 2. 1 基本要求
要求如下: a 应支持存储结构化数据、半结构化和非结构化数据; b) 应支持数据上传、数据下载、目录查看、目录创建、目录删除、权限修改等操作; 应具备标准、开放的数据访问API,以支持对数据的操作; d 应支持对用户访问进行授权; 应具备数据加载工具或功能,使系统和关系型数据库、其他文件系统之间可进行数据和文件交 换; 应支持存储调度,可按用户计划对存储节点的迁移、扩容、复制、更改、删除等进行自动操作; g 应支持文件分级存储,如单机级、跨服务器级、跨机柜级、跨数据系统级: h) 应支持为用户设置不同的数据存放策略; i 应支持为单个用户提供逻辑存储空间; j 应在多用户之间设置数据隔离机制; k 应支持在数据源端去重处理; 应支持表管理功能; m 应支持负载均衡,负载均衡切换过程中,业务应不中断; n 应支持对关系型数据库的不同数据实例制定独立的数据备份策略; 0 宜支持数据自动备份和手动备份; P 宜支持数据批量更新、删除等数据管理操作; q 宜支持流式实时数据入库和实时查询。
6. 2. 2 文件系统
a)应支持文件的上传、下载、读写、复制、移动、删除、访问控制等; b)应具备文件容错机制和系统高可用机制,包括数据块备份、系统快速恢复等功能:
GY/T 339. 22020
c)应支持文件数据的校验和同步,保证数据的完整性与一致性; 应支持分布式文件系统的弹性扩展,支持节点动态添加和删除; 应支持压缩和加密存储的数据; 应支持快速检索,如数据资源的统一检索、编目、增加和删除; g 应支持文件的搜索、批量操作、回收站、快照; h 宜支持小文件打包为大文件集中存储; 宜支持存储配额管理,可基于目录存储空间及文件数量进行配额控制: 宜支持分级存储的功能,如根据数据的使用热度、时延要求等特性将数据分别存储在SSD、HDD 等介质中。
6. 2.3. 1关系数据库
要求如下: a)应支持结构化数据存储机制,实现数据存储的可扩展性; b) 应支持多表关联; C) 应支持数据存储一致性检查,实现数据的完整性与一致性 宜支持行列混合存储,支持表按行或列格式组织存储; e)宜支持行列转换
6. 2. 3. 2列式数据库
要求如下: 应支持以键值形式进行数据存储; b 应支持基于表、列族和列的用户权限管理,权限管理操作包括读、写、创建等; 应支持对数据库中的列进行加密; d 应支持数据的备份与恢复,包括库级别的备份和恢复,并提供备份恢复进展、历史记录查看等 功能; e 宜支持多级索引; f) 宜支持将多个具有类似功能或存在关联关系的业务表进行合并存储
6.2. 3.3图数据库
a)应支持由节点及边组成的数据; 应支持图查询、图遍历、图分析、图挖掘等; C 应支持主流开发接口; d) 应支持单节点、多节点多层关系扩线查询,支持广度优先、深度优先、最短路径、最优路径遍 历搜索算法; e 宜支持顶点、属性的继承操作; g 宜支持长任务异步会话机制
6. 2. 4 性能要求
GY/T 339. 22020
b)缓存数据库,响应时间应小于10mS,I0能力应不小于10000条每秒; 负载均衡切换时间应小于10s; d)存储处理设备CPU忙时平均利用率宜小于70%; e)存储处理设备内存忙时平均利用率宜小于80%; 底层存储的穴余保护能力应不低于RD“0+1”方式; 恢复备份系统中的数据库时,恢复时长应小于6h; h)备份数据库到备份系统时,每天的备份时间应小于6h
要求如下: a 分布式数据库应支持CPU、内存、GPU等异构资源调度和配置; b)分布式数据库应支持计算框架的水平扩展: 应支持任务优先级调度,能定义不同优先级的任务,使得后启动的高优先级任务能够获取运行 中的低优先级任务释放的资源; d 应支持对全局资源的集中管理; 应支持静态资源分配策略和动态资源分配策略; 分布式数据库应提供与组织相匹配的层次结构,应支持多层次的队列资源管理,队列的资源应 严格隔离,队列获得的资源应不超过分配给该队列的上限: g 分布式数据库应支持弹性资源与抢占,即当有空闲资源时,租户可以使用超过其配置资源,以 提高系统整体的吞吐量;当系统繁忙,其他租户无法拿到配置应得的资源时,当前租户超过配 置部分的资源可以被其他租户抢占,以保证各租户的服务质量; h 分布式数据库应支持资源管理、作业调度和数据加载,以及各种分布式计算框架的调度; i)分布式数据库宜支持按照任务间的依赖关系自动调度任务,以提高处理系统的自动化程度; J 分布式数据库宜支持根据作业需求动态分配计算资源,自动管理回收资源; K 分布式数据库宜支持自动完成作业调度,并支持作业内多任务以无回路有向图形式描述的依赖 关系; 1 分布式数据库宜支持复杂任务的调度,如支持深度学习的训练、MPI任务
GY/T 339. 22020
应支持从数据源中获得实时消息数据,完成高吞吐、低延退的实时计算,并将结果输出到消息 队列或者进行持久化; b 应支持对消息处理任务进行创建、浏览、中止、激活、去激活等操作,并记录用户级别的操作 到审计日志中; C 应支持创建滑动窗口方式的实时分析任务,其时间窗口大小应可调; 应支持通过SQL或者类SQL接口对数据进行操作; e 应支持容错性,在出现故障时具备容错处理机制。
a)应内置图数据查询类API; b 应支持以同步计算或异步计算的迭代算法; 应支持明细数据全量导入、增量导入以及自定义导入; 2 应支持内存计算和索引,支持在线图分析和查询: 2 应支持基于属性图的图数据表达,包含结点/边上的标签和属性类型定义; f 应支持内置常用图指标计算功能,以描述图的拓扑结构特征; 应支持实现水平扩展的分布式图计算和查询; h 应支持图数据的并发查询。
a)应支持基于内存的分布式计算; D 应支持水平扩展; 应支持自动负载均衡; 应支持多种数据类型的离线分析,包括结构化数据、半结构化数据、非结构化数据的离线分析; 宜支持高度抽象算子,以快速构建分布式数据处理应用; 宜支持标准SQL语法; 宜支持与非关系型数据库对接,以在不迁移数据的前提下读取非关系型数据库中的数据并进行 计算。
GB 51249-2017 建筑钢结构防火技术规范6. 3. 6 批流融合计算
要求如下: a)批处理集群容量的水平扩展能力应不小于1000个节点; b)在正常情况下,数据处理系统文件系统的10请求响应时间应小于500ms; c)在正常情况下,数据处理系统处理消息的响应延迟应小于500mS。
GY/T 339. 22020
数据分析过程由数据预处理、支撑能力、分析与挖掘过程、流程编排环节组成。通过数据分析过程, 将数据信息转换为知识。数据分析的基本过程包括:对原始数据进行预处理,加载数据到分析系统,通 过预置的分析工具库,执行检索查询、机器学习、统计分析、可视化等操作。一个完整的数据分析系统, 通常还包括配置管理和任务流程编排功能
6.4. 2数据预处理
6.4.2.1数据抽取
要求如下: a) 应支持按照需求抽取存放在文件系统、数据库中的文件或数据; b 对结构化、半结构化、非结构化数据210平方米二层独栋别墅,应支持不同的抽取方法; 应支持全量抽取及增量抽取模式; d) 应支持主动抽取和被动追加方法; e 应支持定时批量抽取; 宜支持分布式数据抽取,数据抽取过程支持负载均衡