标准规范下载简介
GB/T 37036.5-2023 信息技术 移动设备生物特征识别 第5部分:声纹.pdf简介:
GB/T 37036.5-2023 信息技术 移动设备生物特征识别 第5部分:声纹.pdf部分内容预览:
本文件描述了移动设备声纹识别的技术架构,规定了移动设备声纹识别的功能要求、性能要求和安 全要求 多动设备声纹识别 应斤
下列术语和定义适用于本文件。 3.1 声纹语音样本voiceprintspeechsample 可提取声纹的语音样本。 注1:智能语音交互过程中所收集的语音样本如未经过特殊处理,可提取声纹,属于声纹语音样本。 注2:采用参数合成方法生成的语音样本不包含声纹,不属于声纹语音样本。 注3:声纹语音样本是一类生物特征样本,生物特征样本见GB/T5271.37。 3.2 声纹数据voiceprintdata 声纹语音样本及其处理得到的,可单独或结合其他信息识别数据主体的数据。 注:声纹数据包括声纹语音样本、声纹特征项和声纹模型,也称为声纹识别数据。 3.3 声纹注册voiceprintenrolment 根据策略创建和存储声纹模型数据记录的行为。 [来源:GB/T5271.37—2021,3.5.3,有修改] 3.4 声纹建模voiceprintmodeling 根据说话人的声纹特征项估计其声纹模型参数的过程。 注:声纹建模也可称为声纹模型训练。
下列缩略语适用于本文件。 DVPC动态声纹密码(DynamicVoiceprintCode) FAR 错误接受率(FalseAcceptanceRate) FRR错误拒绝率(FalseRejectionRate)
《机械设备安装工程施工及验收通用规范 GB50231-2009》移动设备声纹识别技术势
移动设备上声纹识别由语音采集元件、声纹识别、移动应用三部分组成。其中,语音采集元件提供 声纹语音样本采集功能。声纹识别提供声纹数据采集、声纹特征项提取、声纹建模、声纹数据存储、声纹 比对功能。移动应用是移动设备中的声纹识别的服务调用方,可为一个独立的移动应用软件、移动应用 软件中的一个功能模块或移动设备操作系统提供的一个系统服务。移动设备声纹识别有两种应用模 式,分别为位于移动设备中的本地识别模式(即非联网模式)和结合声纹服务器的远程识别模式(即联网 模式)。 在本地识别模式中,声纹语音样本采集、声纹特征项提取、声纹建模、声纹数据存储和声纹比对均在 移动设备中实现,并在声纹语音样本采集过程中进行质量判断和呈现攻击检测。 在远程识别模式中,声纹语音样本采集在移动设备中实现,通过调用移动设备中的语音采集元件采
集用户的语音,用于后续的声纹特征项提取、声纹建模、声纹数据存储和声纹比对;质量判断、呈现攻击 检测和声纹特征项提取可在移动设备中实现,也可以在声纹服务器端实现;声纹建模、声纹数据存储和 声纹比对一般在服务器端中实现 一些典型应用模式示例见附录A。
移动设备声纹识别业务主要流程包括声纹注册过程、声纹识别过程和声纹注销过程。 a)声纹注册过程,包括但不限于如下步骤。 1)对用户进行身份鉴别和权限检测,如果验证通过则进行下一步,否则不准许进行声纹 注册; 2)启动声纹注册过程; 3)进行声纹语音样本采集; 4)对采集的声纹语音样本进行质量判断、呈现攻击检测,如果未通过检测则重新进行声纹语 音样本采集; 5)对通过检测的声纹语音样本进行声纹特征项提取,并根据所提取的特征项计算出声纹模 型进行存储,并与用户身份标识进行关联; 6)结束声纹注册过程。 b)声纹识别过程,包括但不限于如下步骤: 1)启动声纹识别过程; 2)进行声纹语音样本采集; 3)对采集的声纹语音样本进行质量判断、呈现攻击检测,如果检测通过则进行下一步,否则 退出识别过程; 4)提取用户声纹语音样本中的声纹特征项,直接或进行声纹建模后与存储的一个或多个用 户声纹模型进行比对; 5)根据比对结果做出判断决策,并传输至移动应用; 6)结束声纹识别过程。 c)声纹注销过程,包括但不限于如下步骤: 1)启动声纹注销过程; 2)删除与待注销用户关联的声纹数据以及身份标识; 3)结束声纹注销过程
符合GB/T37036.1一2018中6.1.1的基本功能要求,包括但不限于: a) 1 应适用于不同人种、不同年龄可正常说话的用户; b)月 应适用于移动设备用户和声纹识别系统管理员; C) 1 应支持对声纹比对阈值的设定; d) 宜可结合其他生物特征识别技术实现多模态融合识别
符合GB/T37036.1一2018中6.1.1的基本功能要求,包括但不限于: a) 应适用于不同人种、不同年龄可正常说话的用户; b)月 应适用于移动设备用户和声纹识别系统管理员; C) 应支持对声纹比对阈值的设定; d) 宜可结合其他生物特征识别技术实现多模态融合识别
符合GB/T37036.1一2018中6.1.2的功能管理要求,包括但不限于: a) 1 应支持新用户注册,已注册用户声纹模型删除、更新、注销等功能; bD) 13 应支持用户注册并存储声纹模型; ?) 宜支持用户、声纹识别系统管理员等不同用户使用权限,在声纹识别中的声纹语音样本采集 声纹数据存储和声纹比对等功能中分别具有相应的权限管理机制; d)应具备异常情况处理能力。 注:异常情况包处理能力包括声纹语音样本采集失败、声纹语音样本未通过质量检测、声纹识别决策失败、声纹更 新失败、提示用户重新采集或提示失败等。
.2.1声纹语音样本采集
符合GB/T37036.1一2018中6.2.1的要求,包括但不限于: a)在以声纹建模为目的的声纹语音样本采集前,结合其他身份鉴别手段对用户身份进行认证; b)提示用户采集的环境要尽量保持安静,避免周围环境噪声和其他说话声音的干扰,避免回 音,避免录音现场的各类电磁干扰; cC) 2 具有明显的用户提示,告知用户对其声纹语音样本进行了采集,若采集过程分多次进行,宜向 用户明示每一次采集的进度; d) 具备异常情况判定及处理能力,如声纹语音样本未通过质量判断、检测到呈现攻击等的相应处 理机制
移动设备声纹识别应具备对采集到的用户声纹语音样本进行质量判断的能力,以确定当 音样本是否满足声纹识别处理的需求,包括但不限于对截幅比例、信噪比和声纹语音样本完整 质量判断。
7.2.3呈现攻击检测
表1 声纹识别呈现攻击类型
移动设备声纹识别应能从通过了质量判断的用户声纹语音样本中提取用户的声纹特征项,提耳 宜采用不可逆的方式
符合GB/T37036.1一2018中6.3的要求,包括但不限于: a)应具备声纹数据存储管理功能; b)月 应只允许具有合法权限的操作人员录人、访问、读取或删除存储的用户声纹数据; c) 1 应能够把注册的用户声纹模型与该用户的身份标识进行关联; d) 应支持同一用户根据系统提示的不同内容形式(包括文本相关、文本无关、数字串等)注册声纹 数据进行存储; e)应具备异常情况判定及处理能力,如声纹模型存储、读取或删除失败时的相应处理机制; 1 本地识别模式中,不应存储用户原始的声纹语音样本; g) 1 远程识别模式中,需要对用户原始的声纹语音样本进行存储时,应与声纹特征项、声纹模型分 开存储
移动设备声纹识别应提供下述至少一种识别功能: a) 用户验证,即一对一比对; b) ? 用户辨识,即一对多比对。
7.6.2比对判定及处理
移动设备声纹识别比对判定及处理应提供以下功能: a) 将提取的声纹特征项或生成的声纹模型和已存储的声纹模型进行比对,计算出比对得分: b)根据比对得分进行识别结果判定.输出识别结果:
c) 对异常情况进行判定并做出相应处理 注:异常情况包括比对失败、识别决策失败等
C) 对异常情况进行判定并做出相应处理。 注:异常情况包括比对失败、识别决策失败等
3.1.1本地声纹验证指标
在本地识别模式中,用户声纹验证的基本性能指标应满足以下要求: 般级:FAR≤4.0%时,FRR≤1.5%; ? 增强级:FAR≤1.5%时,FRR≤3.0%。
8.1.2本地声纹辨识指标
在本地识别模式中,当集合人数小于或等于10时DBJ∕T 13-274-2017 福建省透水水泥混凝土场地技术规程,用户声纹辨识的基本性能指标应满足以下要求 1) 开集辨识:应满足本地声纹验证的基本性能指标; D) 闭集辨识:正确识别率不低于99.0%
声纹语音样本采集的采样指标应满足以下要求: 采样率:16000Hz; D) 采样精度:16bit。
声纹语音样本的有效语音长度应满足以下要求: a) 文本相关:声纹注册时有效语音长度大于或等于3s,声纹识别时有效语音长度大于或等于 I s; 2 )文本无关:声纹注册时有效语音长度大于或等于10s,声纹识别时有效语音长度大于或等于 3s; C) DVPC:声纹注册时有效语音长度大于或等于5s s,声纹识别时有效语音长度大于或等于1s
声纹语音样本的有效语音长度应满足以下要求: a) 文本相关:声纹注册时有效语音长度大于或等于3s,声纹识别时有效语音长度大于或等于 Is; D) 文本无关:声纹注册时有效语音长度大于或等于10s,声纹识别时有效语音长度大于或等于 3s; C) DVPC:声纹注册时有效语音长度大于或等于5s,声纹识别时有效语音长度大于或等于1s。
声纹语音样本质量应满足以下要求: ? 截幅比例小于或等于10%; 注:截幅比例又称为截幅率,是指一段完整的声纹语音样本中因音量过大或过小、环境噪声等问题TCBDA 22-2018:室内装饰装修乳胶漆施工技术规程.pdf(无水印 带书签),导致出现语音 信号振幅超出系统量化范围的现象,语音截幅时长占语音总有效时长的比例。 b) 2 信噪比大于或等于20dB; C) 声纹语音样本内容与要求的内容一致。
声纹语音样本质量应满足以下要求: a)) 截幅比例小于或等于10%; 注:截幅比例又称为截幅率,是指一段完整的声纹语音样本中因音量过大或过小、环境噪声等问题,导致出现语 信号振幅超出系统量化范围的现象,语音截幅时长占语音总有效时长的比例。 b) 1 信噪比大于或等于20dB; 、) 声纹语音样本内容与要求的内容一致。
不同架构模式的移动设备声纹识别,在环境噪声等效声级≤50dB(A)时,应满足本文件8.1中 性能指标;在环境噪声等效声级大于50dB(A)且小于或等于60dB(A)时,在满足本文件8.1中 及性能指标中的FAR条件下,FRR不超过限值的2倍。 注:dB(A)的定义参见GB3096一2008