标准规范下载简介
DB15/T 1872-2020 大数据平台 接入技术要求简介:
DB15/T 1872-2020 是中国的大数据平台接入技术标准,这份标准主要针对大数据平台的接入技术进行了详细的规定和要求。以下是该标准简介:
1. 适用范围:该标准适用于大数据平台的建设和运维,包括企业、政府、科研机构等各类组织的数据接入需求。
2. 主要内容:标准涵盖了大数据平台接入的技术要求,包括数据源的兼容性、接入接口的标准化、数据传输的安全性、性能指标(如数据处理速度、吞吐量、延迟等)、数据质量控制、以及数据集成和管理等方面。
3. 技术要求: - 数据接入:支持多种数据源的接入,如关系型数据库、非结构化数据(如日志、文本、图片、视频等)、实时流数据等。 - 接入接口:规定了统一的数据接入接口标准,方便不同数据源的整合和统一管理。 - 数据安全:强调数据在传输和处理过程中的安全,包括数据加密、访问控制、审计等。 - 性能指标:要求平台在处理大数据时,具备良好的可扩展性、并发处理能力和稳定性。 - 数据质量:需要确保接入的数据准确、完整、及时,并有相应的数据清洗和预处理机制。
4. 实施意义:该标准的实施有助于提升大数据平台的规范化、标准化,促进数据的高效整合和利用,推动大数据应用的发展。
请注意,具体的技术要求会根据最新的标准版本有所调整,建议查阅最新的标准文档以获取最准确的信息。
DB15/T 1872-2020 大数据平台 接入技术要求部分内容预览:
大数据big data
DB15/T 18722020
CECS373-2014标准下载管理信息系统managementinformationsystem
是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集 加工、储存、更新、拓展和维护的系统。
下列缩略语适用于本文件。 FTP:标准的文件传输协议(FileTransferProtocol) JDBC:java数据库连接(JavaDataBaseConnectivity)) HTTPS:超文本传输安全协议(HyperTextTransferProtocol overSecureSocketLayer或 lypertext Transfer Protocol Secure) Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作 流数据。
大数据平台作为多维数据的处理平台,支持各类数据源的采集与接入。以下是大数据平台 数据源的接入方式:
DB15/T18722020
a)关系数据库抽取; b) 服务网关服务; c) 实时消息队列: d) 文件接收FTP服务; e 文件拉取FTP服务; f) 直报系统。 具体数据接入总体框架见图1:
a, 关系数据库抽取; b) 服务网关服务; 实时消息队列; d) 文件接收FTP服务; e 文件拉取FTP服务: 直报系统。 具体数据接入总体框
图1数据接入总体框架
关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定时批 量抽取功能。关系数据库数据抽取应具备以下主要功能: a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少 包括数值型、字符型、日期/时间型等数据类型: 支持“全量”和“增量”两种数据抽取模式;“全量”模式是指一次性将关系数据库中物理 表的数据抽取到大数据平台。“增量”模式是指根据设置的抽取条件筛选符合条件的数据抽取 到大数据平台; C 支持关系数据库中结构化数据抽取到大数据平台,包含结构化数据存储、半结构数据存储、非 结构数据存储的数据仓库中;
DB15/T 18722020
关系数据库数据抽取服务应满足以下非功能性要求: a)数据抽取速度:不少于1万条/秒; b)数据抽取吞吐量:在千兆带宽的网络条件下,数据抽取吞吐量不少于50MB/秒
关系数据库抽取应用场景见图2:
图2关系数据库抽取应用场景
应用场景描述如下 a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信 息; D 关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标 表; c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度: d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中
a 关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信 息; D 关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标 表; c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度; d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中
DB15/T18722020
6. 2. 2非功能要求
服务网关服务应满足以下非功能要求: a)数据写入速率:在千兆带宽的网络条件下,数据抽取吞吐量不少于30MB/秒; b)操作并发数:并发数大于200个/秒。
6. 2. 3 应用场景
服务网关服务应用场景见图3
服务网关服务应用场景见图3
图3服务网关服务应用场景
DB15/T 18722020
应用场景描述如下: 数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等 接口信息; 大数据平台根据数据源提供的数据接口进行定义及编排; 服务网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度; d)服务网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。
6. 2. 4 应用要求
)服务网关服务适用于提供接口类数据的数据源,详细说明参见附录B; 提供数据接口的数据源需做好自身数据操作接口程序的开发。
6. 3. 1 功能要求
6. 3. 2 非功能要求
实时消息队列应满足以下非功能性要求: a)高可行性:支持消息主题的分区和备份: b)负载均衡:支持消息发送和消费时的负载均衡操作; c)消息发送速度:可接受的数据量大于5万条/秒。
6. 3. 3应用场景
实时消息队列应用场景见图4
DB15/T18722020
实时消息队列应用场景
应用场景描述如下: a)管理信息系统须向大数据平台申请实时消息队列接入服务: b)大数据平台根据申请创建消息队列主题,返回消息队列名称; c)管理信息系统开发业务处理程序,调用平台实时消息队列接口,发送数据或接收数据
应用要求如下: a)实时消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的实时消息 队列中。基于实时消息队列的消息缓存进行数据分析,如流计算实时处理等,详细说明参见附 录C; b 发送的消息内容格式支持字符串,发送的数据对象可以通过对象序列化机制转换为字符串格式 的消息内容; 管理信息系统应依照大数据平台提供的实时消息队列采集接口完成自身数据发送或接收接口 的开发。
6.4文件接收FTP服务
6. 4. 1 功能要求
文件接收FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库的功能。文件采集 应具备以下主要功能: a 支持标准FTP协议接收数据; b) 支持顺序型断点续传功能; 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e)应支持对客户端进行认证; f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置
DB15/T 18722020
6. 4. 2应用场景
支件接收FTP服务应用场景见图5:
图5文件接收FTP服务应用场景
立用场景描述如下: a) 大数据平台配置应用账号、接收参数及存储位置: b 管理信息系统通过标准FTP协议连接大数据平台服务; 信息服务平台 c) 管理信息系统检查目标临时文件是否存在; d) 管理信息系统发起全量或续传指令; e 管理信息系统发送数据到大数据平台; f) 大数据平台接收文件数据; g) 管理信息系统发送数据校验文件; h) 大数据平台根据校验文件校验数据文件内容: i) 大数据平台按配置的规则存储接收到的数据文件; 大数据平台回写数据存储状态; k) 管理信息系统获取数据存储状态。
DB15/T18722020
应用要求如下: 管理信息系统须在大数据平台注册并申请账号: b) 管理信息系统须按平台协议规范开发上传功能: 管理信息系统生成文件数据时须同时生成对应的完整性校验码; d 具体文件接收FTP服务API接口参见附录D.1,具体实现逻辑参见附录D.2。
6.5文件拉取FTP服务
6. 5. 1功能要求
文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文 牛拉取FTP服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b) 支持FTP服务登录用户名和密码设置; C 支持文件压缩传输,提供文件压缩规则设置; d) 支持文件加密传输,提供文件加密传输规则设置; e 支持设置文件同步、异步拉取,支持设置拉取并行度; f) 支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换; 支持全量文件采集,支持外部数据一次性初始化导入; h) 支持定时轮询文件采集,采集新增的文件,支持文件列表规则过滤; 1 支持图形管理功能,支持FTP连接配置、文件源配置、文件目标存储配置、文件压缩和加密 传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定时及实时策略配 置、文件采集过滤配置
6. 5. 2应用场景
文件拉取FTP应用场景见图6:
DB15/T 18722020
《城市地下空间运营管理标准 CECS402:2015》图6文件拉取FTP服务应用场景
应用场景描述如下: 管理信息系统应提供初始文件存储位置并将业务数据写入到文件中; 管理信息系统搭建FTP服务并为大数据平台分配FTP账号信息; C 大数据平台全量文件采集提供基于FTP协议的采集任务配置,包括:存储文件位置、采集文 件、列表方式、是否文件校验、存储目标位置及文件存储命名规则; d) 运行基于FTP协议的数据采集任务,包括:包括运行的开始时间、结束时间、运行频度; e 大数据平台运行文件采集任务,读取文件存入大数据平台数据存储中。
应用要求如下: a)管理信息系统须先将业务数据保存为文件,并设置访问权限; 数据文件可通过FTP协议访问; 管理信息系统生成文件数据时须同时生成对应的完整性校验码; d)具体文件拉取FTP服务API接口参见附录E.1.具体实现逻辑参见附录E.2
直报系统是大数据平台为各数据接人单位提供的在线填写、上传。直报系统应具备以下主要功能 a)支持数据接入单位注册功能,支持管理单位用户审批功能,支持管理单位为用户分配权限功能: b)支持用户仅能同时登录一次功能; c)支持模板管理功能,应具备模板的新增、删除、修改、搜索操作功能; d)支持模板下载、数据上传、数据提交操作功能:
DB15/T18722020
DB13(J)∕T 216-2016 绿色建筑运行维护技术规程6. 6. 2 非功能要求
直报系统应满足以下非功能性要求: a)直报系统需支持主流的浏览器版本; 直报系统网络需支持互联网、政务网; 数据上传速度不少于5M/秒; d)系统响应时间在200并发下不低于3秒
直报系统应用场景见图7: