GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范

GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范
仅供个人学习
反馈
标准编号:GB/T 36464.1-2020
文件类型:.pdf
资源大小:1.2M
标准类别:电力标准
资源ID:41155
免费资源

GB/T 36464.1-2020 标准规范下载简介

GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范简介:

GB/T 36464.1-2020《信息技术 智能语音交互系统 第1部分:通用规范》是一个由中国国家标准管理机构发布的标准,属于信息技术领域内的智能语音交互系统标准系列。该标准主要规定了智能语音交互系统的通用要求,包括系统架构、功能、性能、安全、用户界面等方面的设计和实现规范。

这个标准的主要目的是为了推动智能语音交互技术的发展,促进相关产品的统一性和互操作性,提高产品质量和用户体验。它适用于各类智能语音交互系统的研发、生产、测试和评估,包括但不限于语音助手、智能家居、智能客服、语音搜索等领域。

具体内容可能包括语音识别的准确率、语音合成的自然度、对话理解的能力、人机交互的友好性、数据隐私保护、系统稳定性等方面的要求。通过遵守该标准,企业能够确保其智能语音交互系统的产品性能和用户体验达到一定的行业水平。

GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范部分内容预览:

GB/T36464.12020

信息技术智能语音交互系统 第1部分:通用规范

信息技术智能语音交互系统

GB/T36464的本部分给出了智能语音交互系统通用功能框架CECS314-2012标准下载,规定了语音交互界面、数据资源、 前端处理、语音处理、服务接口、应用业务处理等功能单元要求 本部分适用于智能语音交互系统的通用设计、开发、应用和维护

GB/T36464.12020

有效语昔信号validspeechsignal 有效语音validspeech

里和数据资源等功能单元,其中: 语音交互界面提供系统与人直接进行语音交互的人机界面,包括语音信号输入、输出以及由前 端处理、语音处理支撑的语音能力: b 数据资源包括系统处理的音频数据和文本数据; C 前端处理提供语音唤醒、声源定位、声纹识别、语音增强、格式转换、重采样等功能; 语音处理提供语音识别、语义理解、语音合成、端点检测、语音编解码、全双工交互、情感计算等 功能; 服务接口提供外部设备/设施调用系统语音服务的接口; f 应用业务处理对语音处理的结果转换为对应的应用指令并反馈业务响应结果。 系统的通用功能框架见图1:部分参数定义及其计算方法参见附录A

图1智能语音交互系统的通用功能框架

系统应支持中文普通话输人输出;除中文普通话之外,对有方言和其他语种输入输出需求的, 支持地方方言、民族语言以及其他语种输人输出

5.4环境噪声适应能力

系统应在不同场景的典型环境 下能成功进行语音交互,确保人机交互可用 主:不同场景的典型环境噪 2~5部分

系统的音频数据主要用于语音识别和语音合成,要求如下: a)语音识别的输人音频数据格式应符合GB/T34083—2017中表1的要求; b)语音合成的输出音频数据格式应符合GB/T34145一2017中表2的要求

改据主要用于各功能单元之间的信息传输、交换利

GB/T36464.1—2020

a)应与具体操作系统和平台无关,并且可扩展; b) 宜是结构化数据,便于系统处理; C 中文编码字符应符合GB18030的规定,并依据GB/T11460进行检测; d)中文语音合成数据交换格式应符合GB/T21024—2007中第5章的要求

a)应与具体操作系统和平合无关,并且可扩展: b)宜是结构化数据,便于系统处理; 中文编码字符应符合GB18030的规定,并依据GB/T11460进行检测; d)中文语音合成数据交换格式应符合GB/T21024—2007中第5章的要求

系统应支持使用预先定义的命令字来对系统进行

7.1.2命令字声纹唤醒

系统在语音唤醒过程中,宜支持使用文本相关声纹识别和命令字匹配,且在声纹确认成功 系统。

7.1.3自定义唤醒命令字

系统应支持对用于语音唤醒的命令字进行自定义

7.1.4多唤醒命令字

7.1.5 多音频流监听

系统在进行语音唤醒时,应支持同时监听多个音步

系统应支持通过对声源的平面角、方 方位角和声源距离的计算,来对发声源进行定位

系统应支持下列声纹识别功能: a) 文本相关的声纹识别; b) 文本无关的声纹识别; c) 指定文本的声纹识别; d) 声纹训练; e) 声纹自适应; f) 声纹确认; g) 声纹辨认; h) 声纹检出; i) 声纹追踪; j) 语言相关的声纹识别;

k)语言无关的声纹识别。 上述功能描述和要求应符合SJ/T113802008第3章的要求

GB/T36464.12020

系统应支持获取指定文本或目定义文本,用于声纹训练、声纹目适应、声纹确认和声纹 辨认。

应支持对输入语音中的背景噪声进行抑制,提高语

系统应支持下列全部或大部分语音识别功能: a) 中文语音识别服务; b) 多语种识别; c 多方言识别: d) 多语种混读识别; e) 自定义语法; f) 个性化识别; g) 识别结果多候选; h) 自定义热词: i) 识别结果进阶; j) 语言信息识别; k) 说话者信息识别。 上述功能描述和要求应符合GB/T34083一2017中4.2和4.3的要求

8.1.2 语音识别方式

B/136464.1 2020 语音识别中的一种。

8.2.1自定义语义词典

能支持应用程序自定义语义词典和用户自定义

8.2.2自定义语义库

能支持应用程序自定义语义库和用户自定义语

系统应正确处理错别字、同义词、多字少字问是

系统在交互过程中,应抽取语义要素和用户的关键意图

系统能在语义理解结果中给出多个排序后的理解结果,供用户进行选择或二次确认

系统应支持下列全部或大部分语音合成功能: a) 中文语音合成; b)流式语音合成; c)多种合成文本编码; d)个性化合成; e)多语种合成; f) 多方言合成; g) 多语种混读合成; h)合成音频多音色; 用户自定义分词; ) 用户自定义读音; k)合成文本位置信息; 1) 文本分词和拼音信息; m)音频时间信息。 上述功能描述和要求应符合GB/T34145—201

支持从一段连续的音频流中检测出第一个语音段

《电子信息系统机房设计规范 GB50174-2008》系统应支持从一段连续的音频流中检测出多

8.4.3端点检测灵敏度设置

8.5.2压缩等级设置

系统应支持根据当前网络状况、系统性能等要求来设置语音编码算法的压缩等级。

系统宜支持全双工语音交互;在此状: 次语音唤醒和随时语音打断,能进行上下文语 境和开放式对话管理,能控制对话节奏和预测用户意图等

系统宜支持以语音信号为载体的情感计算

系统应其备可供外部调用的服务接 中GB∕T 15064.8-1994 显象管石墨乳试验方法 铁和铜含量试验方法,中文语音识别的互联网接口应符合GB/T34083的 规定,中文语音合成的互联网接口应符合GB/T34145的规定

系统应支持将用户意图转换成应用和业务的控制命令或系统指令,实现应用和业务的响应。

©版权声明
相关文章