标准规范下载简介
Q/GDW 12118.2-2021 人工智能平台架构及技术要求 第2部分:算法模型共享应用要求.pdf简介:
Q/GDW 12118.2-2021 人工智能平台架构及技术要求 第2部分:算法模型共享应用要求.pdf部分内容预览:
机器学习machinelearning 功能单元通过获取新知识或技能,或通过整理已有的知识或技能来改进其性能的过程。 [GB/T5271.31—2006,定义31.01.02] 3.2 深度学习deeplearning 机器学习中一种对数据进行表征学习的方法。深度学习通过组合低层特征形成更加抽象的高层特征 表示属性类别,以发现数据的分布式特征表示。 3.3 模型训练modeltraining 基于一系列数据集、学习框架等,并通过最优的建模方法和参数得到一个算法模型的过程。
Q/GDW 12118.22021
测试集testset 用于对最终模型进行无偏评估的样本组成的集
模型文件部著modelfiledeployment 根据提供的算法模型源文件、模型配置文件等,结合相应的开发语言、深度学习框架、模型配置说 明、运行依赖说明,手动完成运行框架、依赖环境安装和配置文件调整,实现算法模型的成功部署DG∕TJ 08-2254-2018 住宅室内装配式装修工程技术标准,完 成相应推理服务。
容器部署dockerdeployment 利用容器封装算法模型源文件、运行框架、依赖环境、配置文件等资源,通过容器方式实现算 的成功部署,完成相应推理服务
预言模型标记语言(PMML)predictivemodelmarkuplanguage 用于呈现数据挖掘模型,支持在不同的应用程序之间共享预测分析模型。
5.1算法模型文件方式共享
[Q/GDW 12118 22021
算法模型宜支持以模型文件方式共享,可利用算法模型文件实现二次训练和部署应用,算法模型文 件应包括但不限于以下文件: a算法模型源文件; b)算法模型配置文件; c)算法模型运行脚本文件。
5.2算法模型容器方式共享
算法模型应支持以容器方式共享,容器应包括算法模型和算法模型运行所需的基础环境,可利用容 器直接部署应用,容器中算法模型文件应包括但不限于以下文件: a)算法模型二进制文件; b)算法模型配置文件; C)算法模型运行脚本文件
算法模型源文件应包括由训练框架和数据集经过模型训练后得到的所有参数存储文件。所涉及的 练框架包括但不限于Caffe、PyTorch、TensorF1ow、MXNet、飞、MindSpore等深度学习框架。根据不 同描述语言和开发框架,算法模型源文件对应要求如下: a)Caffe框架。算法模型源文件宜包括caffemodel文件和prototxt文件,caffemodel存储模型 参数,prototxt存储模型网络结构; b PyTorch框架。算法模型源文件宜包括pth文件,用于存储模型的网络结构和参数; C TensorF1ow框架。模型源文件宜包括meta文件、data文件和index文件,meta文件存储模 型的网络结构,data文件存储模型的网络参数,index文件为张量描述列表或网络结构和参数 整合后的h5/pb文件; MxNet框架。算法模型源文件宜包括params文件和json文件,params文件存储模型参数,jsor 文件存储模型网络结构; e) 其他框架。算法模型源文件可采用通用PMML预言模型标记语言描述,文件格式为xml,可用 于描述和存储算法模型
6.2算法模型配置文件
模型配置文件描述所有可配置的变量,针对不同框架的配置文件格式要求如下: a)Caffe框架。算法模型配置文件应为prototxt格式: b)PyTorch框架。算法模型配置文件应为py格式; c)TensorF1ow框架。算法模型配置文件应为config格式: )MXNet框架。算法模型配置文件应为params格式: e)其他框架。算法模型配置文件可采用xml格式。 各类配置文件中可调参数应包含但不限于以下字段
Q/GDW 12118. 22021
表 1 可调参数说明
6.3算法模型运行脚本文件
提供算法模型训练所采用的数据集相关描述,应包括但不限于训练数据集、验证数据集和测试数据 集。数据描述字段包括但不限于以下字段
7.2模型服务类型描述文档
应对算法模型训练所属模型服务进行描述。模型服务分类应为语音识别、OCR识别、人脸识别 检测、自然语言处理、知识图谱。
c)作者信息,算法模型的生成作者,可为个人或单位; 模型大小,算法模型源文件大小; 开发语言,算法模型核心部分的开发语言以及相应版本信息,如Python3.6、Javal.8等,可 为多个; 训练框架,训练框架宜包括但不限于TensorFlow、PyTorch、Caffe、MXNet、飞桨、MindSpore 以及相应框架的版本信息,如TensorF1ow2.0.0; g 最小配置,最小配置为能使模型运行的最小配置,最小配置描述应包括但不限于CPU、GPU、 内存、存储空间等配置信息; h 推荐配置,推荐配置为能发挥模型性能的最优配置,推荐配置描述应包括但不限于CPU、GPU、 内存、存储空间等配置信息; 1 芯片类型,应指明模型在边缘端运行所需要的芯片类型、型号,如GPU,NvidiaTeslaP4; 运行环境,运行环境为模型的实际使用环境配置,运行环境描述应包括但不限于如下配置CPU、 GPU、内存、存储空间
性能描述文档应对算法模型的性能参数进行描述,根据不同类型模型,性能参数要求包含,但不限 于如下: a)语音识别类模型。语音识别模型的性能描述宜包括但不限于如下参数: 1)词错误率wER(WordErrorRate)。wER计算方式为:为了使识别出来的词序列和标准的 词序列之间保持一致,需要进行替换、删除或者插入某些词,这些插入(Insertion)、 替换(Substitution)、删除(Deletion)的词的总个数,与标准的词序列中词个数的百 分比,即为WER。其计算公式如式(1)所示:
Insertions+Substitutions+Deletions WER=100x Total Word s in Correct Transcript
式中: WER一一词错误率; TotalWordsinCorrectTranscript单词总数; Insertion一插入单词总数; Substitution替换单词总数; Deletion一删除单词总数。 2)句子识别错误率SER。SER计算方式为:为了使识别出来的词序列和标准的词序列之间保 持一致,需要进行替换、删除,句子中如果有一个词识别错误,那么这个句子被认为识别 错误,句子识别错误的个数,除以总的句子个数即为SER。其计算公式如式(2)所示:
SER=100x SentencewithErro Total of Sentences
Q/GDW 12118.22021
1)拒识率FRR,是指在标准数据库上测试OCR识别算法时,相同OCR的匹配分数低于给定 值,从而被认为是不同ORC的比例; 2 误识率FAR,是指在标准数据库上测试OCR识别算法时,不同OCR的匹配分数大于给定崴 值,从而被认为是相同OCR的比例。 人脸识别类模型。人脸识别模型的性能描述宜包括但不限于如下参数: 1)精确率Precision,预测为正例的样本中,真正为正例的比率,如式(3)
TP ecision: TP + FP
ecal1),预测为正例的TP占所有真实正例的比
TF TPR: TP + EN
角率Accuracy,在所有样本里面预测对了的比率
ccuracy TP + TN + FP + FN
2TP+ FP + FN
5)曲线ROC。接受者操作特征曲线,是反映敏感性和特异性连续变量的综合指标,ROC曲线 上每个点反映着对同一信号刺激的感受性。ROC曲线的横坐标和纵坐标分别是伪正类率 FPR和真正类率TPR。 6)伪正类率FPR。预测为正但实际为负的样本占所有负样本的比例,如式(7)
FPR = FP FP + TN
率TPR。预测为正且实际为正的样本占所有正样
TPR=Recall TP TP + FN
TPR=Recall TP (8) TP + FN
式中: DR——检测结果; GT——标准答案。
IOU= DRIGT DRUGT
WST 592-2018标准下载DRIGT IOU= DRUGT
[Q/GDW 12118 22021
章法模型应支持以部署方式进行应用 特容器部著, ,宜支持模型文件部署。
算法模型宜支持以二次训练方式应用。根据算法模型的开发语言、深度学习训练框架、数 述文档等内容,宜支持对算法模型进行相应参数调优。
Q/GDW 12118.22021
人工智能平台架构及技术要求
Q/GDW 12118.22021
2018甬 DX-05 宁波市民用建筑能耗监测系统建设实施细则.pdf编制背景。 编制主要原则 与其他标准文件的关系.. 主要工作过程. 11 标准结构和内容. 条文说明.
本部分根据国家电网有限公司下达的《2020年第一批技术标准制修订计划》(国家电网科(2020。 21号)的要求编写。 本部分编制背景是人工智能技术成为推动能源互联网创新发展的关键核心技术,为公司电网调度、 运维检修及分析决策等提供智能分析支持,在电网生产、经营管理和优质服务三大领域日益广泛应用。 为统一支持公司人工智能平台建设,开展人工智能算法模型共享应用标准规范研究,为公司各类业务应 用提供电力人工智能算法模型的支撑服务。 本部分标准编制的主要目的是指导公司人工智能算法模型的共享与应用