GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:5.1 M
标准类别:国家标准
资源ID:136346
免费资源

标准规范下载简介

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf简介:

GB/T 41813.2-2022《信息技术 智能语音交互测试方法 第2部分:语义理解》是一个中国国家标准,它主要规定了智能语音交互系统在语义理解方面的测试方法和指导原则。语义理解是智能语音交互系统的重要组成部分,它涉及到系统对自然语言的深度理解和解析,旨在准确地识别和理解用户的意图,从而提供相应的服务或回应。

该标准可能包括以下内容:

1. 定义和术语:明确语义理解的定义,以及与智能语音交互相关的术语和概念。

2. 测试目标:确定语义理解能力的关键性能指标,如理解准确率、语义解析的完整性、上下文理解能力等。

3. 测试方法:提供一系列的测试场景和对话,用于评估系统在理解复杂语义、长句子、多义词、口语化表达等方面的表现。

4. 评估和测量:定义如何量化和评估系统的语义理解能力,可能涉及自动评估工具和人工评估的结合。

5. 应用场景:考虑不同应用场景(如家居、汽车、医疗等)对语义理解的特殊需求。

6. 标准和规范:参考国内外相关标准,确保测试方法的科学性和有效性。

7. 实施与维护:提供实施和持续改进该测试方法的指南。

这个标准的发布有助于推动智能语音交互技术的发展,提高系统的用户体验,同时也为技术供应商和开发者提供了一套可遵循的测试规范。

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf部分内容预览:

信息技术智能语音交互测试方法 第2部分:语义理解

本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统 测试的设计和实施。

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件JC∕T 2401-2017 电光调制器用透明电光陶瓷,其最新版本(包括所有的修改单)适用于 本文件。 GB/T36464(所有部分)信息技术 智能语音交互系统

不语和定文 GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语义理解semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T36464.1—2020,3.11] 3.2 命名实体namedentity 具有特指或唯一含义的指称名字的实体。 3.3 意图intention 语音交互过程中需要系统执行的任务或达成目标。

智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体 识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生 成、逻辑推理、对话引导和上下文相关的多轮对话; 性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率 和系统稳定性。 测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法 行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对

智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体 识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生 成、逻辑推理、对话引导和上下文相关的多轮对话; 性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率 和系统稳定性。 测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法 进行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对

语义理解测试工具包括可编程测试工具、测试统计工具和资源监测工具,应符合下列要求。 a)可编程测试工具要求如下: ·应能调用被测系统开放接口; ·应能对工具配置文件进行定制; ·应能接收文本数据并将其输人至被测系统; ·应能进行功能测试及其相应的性能测试; ·应能以文本形式获取被测系统运行结果。 b)测试统计工具要求如下: ·应能自动对不同测试项的系统运行结果进行统计和分析; ·应能自动对系统运行结果和标准结果对比文件进行比对。 c)资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统 参数。

支测系统的功能和性能要求,以及应用场景配置相

应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并 运行结果。

测试内容:检查被测系统是否提供理解说话人的意图的功能,包括但不限于以下具体功能。 a)模糊识别:能正确处理错别字、同义词、多字和少字等问题。 b)语义抽取:能抽取语义要素和说话人关键意图,包括: ·命名实体抽取,被测系统能自动对文本中表达关键意图的命名实体进行抽取; ·关键词抽取,被测系统能自动对文本中表达意图的关键词进行抽取; ·语义关系抽取,被测系统能自动对文本中表达语义关系的三元组进行抽取。 c)语义排序:被测系统能在语义理解结果中给出多个排序后的理解结果,供说话人进行选择或二 次确认。 d)意图分类:被测系统能对说话人的关键意图进行预测,将输人的文本数据对应到一个或多个预 定的意图上,并标记文本数据所属意图类别。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 则试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供在文本中找出并准确标注命名实体的功能。

测试方法:按照表1中的中命名实体文本的要求制作测试数据集,使用可编程测试工具和测试统计 工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供根据上下文对输人文本中的敏感内容进行分辨的功能。 注:敏感内容包括涉及黄色、暴力、恐怖和国家安全等信息的内容。 测试方法:按照表1中的敏感信息文本的要求制作测试数据集,使用可编程测试工具和测试统计工 具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供对无法处理或不应当处理的无效文本输人内容进行分辨和拒识 的功能。 注:无法处理的内容包括被测系统不支持的或与业务无关的内容;不应当处理的内容包括完全无意义的内容。 测试方法:按照表2中的未定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供信息检索的功能,包括但不限于以下具体功能。 a)个性化词典检索:如联系人列表、歌曲列表和兴趣点(POI)等。 b)第三方信源检索:如天气、航班、酒店和股票等。 c)自定义知识库检索。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供根据输入的文本数据,计算其与已有文本的语义信息一致性程度 的功能。语义信息一致性类型包括但不限于以下具体方面。 a)句子用词发生了变化,但语义信息相似。 b)句子结构发生了变化,但语义信息相似。 c)句子用词和结构相似,但语义信息不相似。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供对对话中的前一句文本进行修改的功能。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。 注:语义理解错误包括句法错误、中文分词错误、指代消歧错误等。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工 试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定

测试内容:检查被测系统是否提供对语义理解错误的结果进行自动校正的功能。 注:语义理解错误包括句法错误、中文分词错误、指代消歧错误等。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进

GB/T 41813.2—2022

测试内容:检查被测系统是否提供根据语义理解结果生成自然语言文本,符合说话人的意图、满足 语音交互响应的功能。 注:自然语言文本内容包括: a)简单答复文本; b)根据预定义模板的答复文本; c)理解和符合说话人的意图的答复文本; d)说话人的意图不明确时给出的合理的引导或推荐的答复文本。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定

测试内容:检查被测系统是否提供对文本内容的逻辑计算和推导的功能。 示例:2020年是闰年;爸爸的妈妈叫奶奶。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定。

测试内容:检查被测系统是否提供根据说话人的意图和场景需求动态生成引导提示用语,引导用户 对其最终目的进行陈述的功能。引导提示用语包含但不限于以下具体内容: a)个性化词典; b)根据用户行为习惯挖掘归类的信息; c)已定义知识库内的知识; d)第三方信源信息; e)海量数据的检索得到的关联信息; f)拒识提示。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果DB21/T 3595-2022 地面臭氧浓度等级.pdf,按照测试内容的描述对结果进行判定。

6.12上下文相关的多轮会话

测试内容:检查被测系统是否提供上下文相关的多轮会话处理能力,包含但不限于以下具体功能: a)对话状态跟踪; b)对话策略管理; c)对话意图切换、跳转; d)历史信息继承。 测试方法:按照表2中的已定义场景或业务文本数据的要求制作测试数据集,使用可编程测试工具 和测试统计工具将测试数据集输人到被测系统并获取运行结果,按照测试内容的描述对结果进行判定

员累计增益等参数表征,具体参数描述和计算方法如下。 a 精确率:检测被测系统的语义理解能力,即被测系统对有效文本实际响应正确的次数占所有 本响应正确的总次数的比率。参数值计算方法见公式(1):

Nss X100% Ns

Pss一语义理解精确率; Nss一有效文本实际响应正确的次数; Ns一所有文本响应正确的总次数。 召回率:检测被测系统的语义理解能力YB/T 4782-2019 真空自耗炉结晶器.pdf,即被测系统对有效文本实际响应正确的次数占应响 应正确的总次数的比率。参数值计算方法见公式(2):

SR 语义拒识率; NsR 无效文本实际响应正确的次数 N 无效文本输人的总次数

无效文本输入的忘认数。 准确率:检测被测系统的语义理解能力,即被测系统对所有文本实际响应正确次数占所有文 本响应的总次数的比率。参数值计算方法见公式(4):

©版权声明
相关文章