GB/T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别.pdf

GB/T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:5.8 M
标准类别:国家标准
资源ID:136345
免费资源

标准规范下载简介

GB/T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别.pdf简介:

GB/T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别.pdf部分内容预览:

信息技术智能语音交互测试方法 第1部分:语音识别

信息技术智能语音交互测试方法

山西某发电厂汽机安装施工组织设计_secret本文件描述了智能语音交互测试中语音识别系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语音识别系统 测试的设计和实施

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引 牛,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适 本文件。 GB/T21023中文语音识别系统通用技术规范 GB/T36464(所有部分)信息技术智能语音交互系统

GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语音识别speechrecognition 将人类的声音信号转化为文字或者指令的过程。 [来源:GB/T36464.1—2020,3.7] 3.2 说话人分离speakerdiarization 对包含有效语音信号的音频流中的多个说话人进行说话人分割和说话人聚类的过程。 注:说话人分离的目的一般是对空间中存在的多个说话人进行分类和追踪。 3.3 说话人分割speakersegmentation 在多个说话人中找出说话人改变的时间边界,并根据这些边界将音频流切分成多个语音片段。 3.4 说话人聚类speakerclustering 将属于同一个说话人的一个或多个语音片段进行归类。 3.5 语音编码speechcoding;speechencoding 语音波形编码speechwaveformcoding 按照一组能合理重构语音信号的规划,由经数字化的语音信号到离散的数据元序列的转换。 注:语音数字化可与用于语音压缩的某一编码相结合。因此,"语音编码"这一术语常指这种组合运算。 [来源:GB/T5271.29—2006,29.01.23]

GB/T41813.1—2022

语音识别测试工具包括可编程测试工具、测试统计工具和资源监测工具符合下列要求。 a)可编程测试工具要求如下: ·应能调用被测系统开放接口; ·应能对工具配置文件进行定制; ·应能接收语音数据并将其输人至被测系统; ·应能进行功能测试及其相应的性能测试; ·应能以文本形式获取被测系统运行结果。 b)测试统计工具要求如下: ·应能自动对不同测试项的系统运行结果进行统计和分析; ·应能自动对系统运行结果和标准结果对比文件进行比对。 c)资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源 参数。

采样设备:音频采样设备参数应符合表2的要求,

表2音频采样设备参数要求

音频采样设备参数要求

专声器设备:传声器设备参数应符合表3的要求。

回放设备:回放设备参数应符合表4的要求。

GB/T 41813.1—2022

表4回放设备参数要求

应根据被测系统的功能和性能要求,以及应用场景配置相应的软硬件环境,

应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并获取 运行结果

应根据被测系统技术要求对系统在各测试项上的运行结果进行记录和分析,形成测试结果。

测试内容:检查被测系统是否提供给定拾音距离下的语音信号采集功能。 测试方法:按照表1的要求和测试功能制作测试数据集,按照给定的拾音距离,放置被测系统和回 放设备(播放器或人工嘴),使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取 运行结果。拾音距离应根据被测系统的主要用途和应用场景进行设置,在实际测试中可根据需要进行 区间划分,例如,按照1m、3m和5m划分为4个区间。

GB/T 41813.1—2022

测试内容:检查被测系统是否提供将所接收到的有效语音信号转化为与语音内容相符的文字结果, 并将其输出的功能。 测试方法:按照表1的要求和测试功能制作测试数据集,使用可编程测试工具和测试统计工具将测 试数据集输人到被测系统并获取运行结果。

测试内容:检查被测系统是否提供语音唤醒的功能,包括但不限于以下具体功能。 a)命令字(词)唤醒:能使用预定义唤醒命令字(词)唤醒被测系统。 b)自定义唤醒命令字(词):能自定义唤醒命令字(词)。 c)多命令字(词)唤醒:能使用不同的唤醒命令字(词)唤醒被测系统。 d)多音频流监听:被测系统在执行语音唤醒的同时能监听多个音频流。 e)语音打断唤醒:能使用语音打断的方式唤醒被测系统。 f)协同唤醒:使用相同命令字(词)的多个设备在同一场景中出现,一次唤醒操作有且仅有一个设 备应答。 测试方法:按照表1的要求和测试功能制作包含预定义唤醒命令字(词)、非唤醒命令字(词)、自定 义唤醒命令字(词)、多个唤醒命令字(词)和语音打断唤醒命令字(词)的测试数据集,使用可编程测试工 具和测试统计工具将测试数据集输人到被测系统并获取运行结果。

测试内容:检查被测系统是否提供前端信号处理的功能,包括但不限于以下具体功能。 a)语音编解码:被测系统能设置语音编码算法的压缩等级,能支持不同音频编码格式下的语音音 频的压缩和解压缩,并确保语音内容不变。 b)端点检测:被测系统能从连续音频流中检测出第一个或多个语音片段的起始点和结束点,能设 置端点检测灵敏度,即设置语音等待超时时长和尾部静音长度。 C1 语音增强:被测系统能自动对输人语音的信噪比进行改善,能对输人语音中的背景噪声和晚期 混响进行抑制。 d)声源定位:被测系统能自动对发声源的空间位置进行定位。 e)格式转换:被测系统能自动对输人音频的格式进行转换,并确保语音内容不变。 f)·重采样:被测系统能改变数字语音信号的采样率,并确保语音内容不变。 g)音频质量判断:被测系统能对输人音频质量进行自动判断。 示例:对音量过小、信噪比过低或存在前、后截断的音频判断为音频质量较差。 h)声学回声消除:被测系统能对输人音频进行回声消除。 测试方法:按照表1的要求和测试功能制作包含多种音频质量的测试数据集,包括前截断音频、后 断音频、音量小音频、信噪比低音频等,使用可编程测试工具和测试统计工具将测试数据集输人到被 系统并获取运行结果。

测试内容:检查被测系统是否提供说话人分离的功能,包括但不限于以下具体功能。 D 说话人分割:被测系统能自动进行说话人分割,分割后的语音片段只包含一个说话人的语音 内容。 说话人聚类:被测系统能自动进行说话人聚类,聚类后的语音片段分别对应不同的说话人

测试内容:检查被测系统是否提供说话人分离的功能,包括但不限于以下具体功能。 8D 说话人分割:被测系统能自动进行说话人分割,分割后的语音片段只包含一个说话人的语音 内容。 b) 说话人聚类:被测系统能自动进行说话人聚类,聚类后的语音片段分别对应不同的说话人,

GB/T 41813.1—2022

测试方法:按照表1的要求和测试功能制作包含多个说话人交替对话的测试数据集T∕CAS 428-2020 综合管廊智能化巡检机器人通用技术标准,对话时长 min,使用可编程测试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果。

测试内容:检查被测系统是否提供语言信息识别的功能,包括但不限于以下具体功能。 a)(多)语种识别:被测系统能自动对输人语音所属的某个或多个(2个及以上)语种进行判断并 输出(多)语种识别结果。 b)多语种混读识别:在多个语种混读的情况下,被测系统能自动对不同语种进行判断并输出多语 种混读识别结果。 c)(多)汉语方言识别:被测系统能自动对输人语音所属的某个或多个(2个及以上)汉语方言进 行判断并输出(多)汉语方言识别结果。 d)语言信息端点识别:被测系统能自动对不同的语种、汉语方言的音频片段端点进行判断并输出 语言信息端点识别结果。 测试方法:按照表1的要求和测试功能制作包含一个或多个语音信息的测试数据集,使用可编程测 试工具和测试统计工具将测试数据集输人到被测系统并获取运行结果

测试内容:语音识别效果测试项包括对字识别效果和句识别正确率的测试。 a)字识别效果:字识别效果由字匹配率等参数表征,它们共同显示被测系统的字识别能力。参数 值按GB/T21023描述的方法计算: ·字匹配率, ·替代错误率,

测试内容:语音识别效率测试项用语音识别平均响应时间、语音识别平均子句响应时间、语音识别 时间分布和语音识别吞吐率等参数表征。 a) 语音识别平均响应时间:语音识别响应时间指的是接收到一条语音后,被测系统给出该条语音 识别结果的时间;语音识别平均响应时间是测试数据集上所有语音识别响应时间与输人语音 总条数的比值。参数值计算方法见公式(1):

式中: Tw 语音识别平均响应时间; t: —得到第i条语音识别结果的时刻; t° 一第i条语音输人结束的时刻; N 一输人语音总条数。

式中: T一语音识别平均响应时间; t:一得到第i条语音识别结果的时刻; t。一第i条语音输人结束的时刻; N一输人语音总条数。 b> )语音识别平均子句响应时间:语音识别子句响应时间指的是接收到一条语音后,被测系统给 出该条语音中某一子句识别结果的时间;语音识别平均子句响应时间是测试数据集上所有语 音识别子句响应时间与输人语音总条数的比值。参数值计算方法见公式(2):

GB∕T 29044-2012 采暖空调系统水质式中: Tw一语音识别平均子句响应时间; t一得到第i条语音中第j个子句识别结果的时刻; t一第i条语音中第j个子句输人结束的时刻; N一一输人语音总条数。 ?) . 语音识别响应时间分布:此参数显示测试数据集上所有语音识别响应时间分布及其占比情况 实际测试时可根据需要划分不同响应时间区间。

GB/T 41813.1—2022

©版权声明
相关文章