标准规范下载简介
GB/T 42131-2022 人工智能 知识图谱技术框架.pdf简介:
GB/T 42131-2022 人工智能 知识图谱技术框架.pdf部分内容预览:
本文件没有规范性引用文件。
下列缩略语适用于本文件。 API:应用程序编程接口(ApplicationProgrammingInterface) RDF:资源描述框架(ResourceDescriptionFramework) SDK:软件开发工具包(SoftwareDevelopmentKit)
GB 51034-2014 多晶硅工厂设计规范5.1知识图谱概念模型
知识图谱的概念模型可划分为本体层和实例层,如图1所示。其中,本体层由实体类型和其属 体类型间关系类型、规则等本体相关知识元素构成;实例层是对本体层的实例化,由实体类型对 体及其属性以及实体间关系等实体相关知识元素构成。
图 知识图谱的概念模型
图2示出从构建到使用知识图谱涉及的各类利益相关方和各类技术活动的技术框架,技 括:知识图谱的构建、基于知识图谱的产品或服务的开发、知识图谱的使用以及知识图谱开发 支持等四类。
图2知识图谱技术框架
图2示出的四类知识图谱相关活动简述如下。 三 2 知识图谱的构建:此组活动主要包括知识表示、知识建模、知识获取等活动。其主要目标是构 建出所需的知识图谱,同时开发出相应的基础工具和/或服务。此组活动的主要依据是知识图 谱应用需求和质量要求;往往需要行业知识、业务数据、辅助知识等予以支持。 b)基于知识图谱的产品或服务开发:此组活动主要包括需求分析、系统设计、知识图谱集成等活 动。这些活动的执行基于上述a)描述的活动构建的知识图谱和相应的知识图谱应用需求等 完成知识图谱应用系统的开发和集成,并提供配套的产品或服务。 c)知识图谱的使用:此组活动主要包括知识应用、知识维护、知识提供等活动。这些活动的执行 基于上述b)描述的活动产生的知识图谱应用系统或服务。通过这些活动完成知识的使用和 维护,并对外提供必要的知识。 d)知识图谱开发和使用的支持:此组活动主要包括基础设施提供、数据提供、安全保障、咨询评估 等。它们对上述a)、b)和c)描述的活动的执行提供必要支持,例如:提供辅助数据或知识、支 撑技术或服务等。 上述四类活动分别主要由以下四类参与者执行: a) 知识图谱供应方:主要执行知识图谱的构建和提供活动; b)先 知识图谱集成方:主要执行基于知识图谱的工具或服务开发和集成活动; c)分 知识图谱用户:主要执行知识图谱的使用活动; d)知识图谱生态系统合作伙伴:主要执行知识图谱开发和使用的支持活动。 每类参与者有其主要执行的活动,同时可能执行涉及四类活动中的多项活动。
6.1知识图谱供应方的输入
知识图谱供应方的输入包括但不限于: a) 知识图谱应用需求:知识图谱用户对应用知识图谱提出的要求,如业务需求、应用约束、数据现 状等; b)知识图谱构建需求:知识图谱集成方对构建知识图谱提出的要求,如知识范围、知识粒度、知识 图谱规模等; C) 业务数据:构建知识图谱所需的基础数据、行业数据和其他必要数据; d) 辅助知识:指导或支撑知识图谱构建的常识、行业知识、专家知识等; e) 2 支撑技术和服务:构建知识图谱所需的技术和服务支持,如数据预处理、数据标注工具等; f 质量指标:知识图谱用户或知识图谱集成方提出的知识图谱质量要求和性能指标
知识图谱供应方的输出包括但不限于: a) 知识图谱; b) )知识图谱基础工具:具有知识获取、检索、关系推理、可视化和维护等基本功能的知识图谱工具 或系统等: 注1:部分知识图谱工具也具备知识管理相关基础功能。 c)知识图谱基础服务:基于知识图谱以接口等形式提供知识查询或计算结果调用的服务; 注2:知识图谱供应方出于安全、所有权等考虑会提供基础服务;知识图谱集成方部分情况下通过使用知识图谱基 础服务在其上层开发和集成新的产品或服务。 d)技术支持:提供知识图谱基础工具或基础服务在集成过程中所需的技术支持
知识图谱供应方的主要活动流程见图3,可包括: a) 1 知识表示:利用机器能够识别和处理的符号和方法描述人类的知识的活动; b) 4 知识建模:构建知识图谱的本体及其形式化表达的活动; C) 知识获取:从不同来源和结构的输入数据中提取知识的活动; d) 知识融合:整合和集成知识单元(集),并形成拥有全局统一知识标识的知识图谱的活动; e) 知识存储:设计存储架构,并利用软硬件等基础设施对知识进行存储、查询、维护和管理的 活动; > 知识计算:基于已构建的知识图谱和算法,发现/获得隐含知识并对外提供知识服务能力的 活动; g) A 知识演化:随本体模型、数据资源等变化产生的新知识对原有知识的补充、更新或重组的活动; h)知识溯源:在知识图谱全生存周期中追踪原始数据向知识转化的活动; 1) 1 质量保障:保障知识内容、知识图谱构建过程、知识图谱基础服务或工具的质量的活动。 除上述主要活动·知识图谱供应方还可包括知识交换、知识治理等其他可选活动。
6.3.2.1活动输入
知识表示活动的输入包括但不限于如下内容。 a)知识图谱应用需求,如: 1)业务需求:拟解决的业务问题及拟达成的业务目标; 2)应用场景:拟部署应用的具体业务场景; 3)应用约束:知识图谱应用过程中应遵循的相关要求、标准、法律法规等; 4)知识背景:知识表示专家具有的学科背景、技术背景、领域背景等; 5)应用反馈:知识图谱供应方其他活动应用知识表示模型的意见及建议。 b)知识图谱构建需求。 C) 12 数据需求:数据包括基础训练与测试数据、业务数据等,主要用于支持知识表示学习、知识获取 等环节算法模型的设计、训练测试及后续知识图谱的构建。 d)质量指标。 e)实体类型体系。
6.3.2.2活动输出
知识表示活动的输出包括但不限于如下内容。 a) 3 知识表示模型,可包括: 1)知识表示框架:知识表示结构和具体表现形态; 2)知识表示元素:知识表示过程中需要使用的元素及其含义,如实体类型、实体、关系类型 推理规则等; 3)知识表示要求:知识表示过程中需要遵守的规则、约束; 4)知识表示适用范围:知识表示模型的边界、范围和限制。 b)知识表示模型质量评价体系。
6.3.2.3任务组成
知识表示活动的任务组成见图4,包括但不限于: a) 定义知识表示需求,如拟解决的业务问题、拟实现的业务目标等; bD) 定义或确定拟遵循的规则、约束,如业务规则及相关约束等; 注1:面向特殊领域,对不适于或缺失已有规则和约束的场景设计规则和约束。 c)定义或选择知识表示形式; 注2:面向特殊领域,针对需求采用或设计多元组、框架等知识表示形式。 d)定义和序列化知识表示元素,并制定知识表示过程应遵循的相关约束、通用规则等; e) 定义知识表示模型适用范围,如适用场景、不适用的场景、使用的注意事项等; f) 定义知识表示模型评价体系; g)评估知识表示能力。
6.3.2.4质量一般性能
用于描述知识表示活动质量的一般性能包括但不限于: G 可表达性:形成的知识表示模型完整表达特定领域业务所需知识且可被实施人员理解的程度: b) 可实现性:形成的知识表示模型是否可被计算机识别及被算法实现; ?) 严密性:形成的知识表示模型是否可描述形式化的语法、语义及相关推理规则; d) 可维护性:形成的知识表示模型是否可支持知识图谱构建完成后知识单元的维护和管理,
6.3.3.1活动输入
知识建模活动的输入包括但不限于如下内容。 a) 15 知识图谱应用需求,如: 1)业务需求; 2)应用场景; 3)应用约束; 4)数据现状:拟解决的业务问题相关数据探查的结果,包括数据字典、数据质量、数据量、已 处理过的数据结构等; 5)应用反馈:知识图谱供应方其他活动应用本体模型的建议等。 b)知识图谱构建需求。 C 辅助知识,如: 1)行业知识,可包括术语字典、术语体系、行业指南、行业标准、其他行业知识等; 2)专家知识。 d)质量指标。 e) 知识表示模型。 ? 知识表示活动、知识获取活动和知识融合活动输出的实体类型、关系类型等知识单元
6.3.3.2活动输出
知识建模活动的任务组成见图5,包括但不限于如下内容。 Ea) 确定知识的领域和范畴。 b)确定现有可复用本体模型,可复用本体模型的确认原则可包括: 1)如非必要,不宜新增实体; 2)实体类别融合原则:如果两类实体类别的实例相同,可融合对应实体类别; 3)实体类别分拆原则:如果某实体类别的互斥属性较多,可拆成多个细分实体类别 确定知识范畴内的关键术语。 d)林 构建实体类别层级体系。 e) 定义实体类别的属性与关系。 f) 1 定义应用需求相关的规则、公理等(可选)。 g)在 确定并创建本体模型及图式。 h)评估本体模型质量。
6.3.3.4质量一般性能
图5知识建模任务流程图
6.3.4.1活动输入
知识获取活动的输入包括但不限于如下内容, a) 数据,可包括:
1)结构化数据,如存储于关系型数据库中的业务数据; 2) )半结构化数据,如百科数据等; 3) 三 非结构化数据,如文档、图片、视频、音频等。 b)已有的本体模型和图式。
知识获取活动的输出为知识单元(集),包括但不限于如下内容。 a) 实体信息; b) 实体间的关系信息; c) 1 实体的属性信息; d)本体模型中缺失信息,如: 1)实体类型信息; 2)实体类型间的关系信息; 3)实体类型的属性信息。 注:本体模型中缺失信息将反馈至知识建模活动,并进一步优化本体模型
6.3.4.3任务组成
JGJ@T240-2011《再生骨料应用技术规程》.pdf图6知识获取任务流程图
知识获取活动质量的评估可通过获取知识单元与人工标注数据的比较得出,一般性能主要包括如 下内容。 精确率PrecisionA:度量已获取知识中正确知识的占比。计算公式见式(1)
PrecisionA= TPA TPA+FPA
PrecisionA= TPA TPA+FP
TPA一 真阳性:被识别并与真实相符的实体、关系或属性数量; FPA一 假阳性:被识别但与真实不符的实体、关系或属性数量。 b) 召回率RecallA:度量已获取知识对正确知识覆盖的程度。计算公式见式(2)
FNA一一假阴性:被标注为真实但未识别的实体、关系或属性数量。 C) F1测量值F1一scoreA:综合度量知识获取结果的精确性和完整性,计算公式见式(3):
T/CECS822-2021 变截面双向搅拌桩技术规程及条文说明.pdf6.3.5.1活动输入