一种身份识别方法和装置

引用

摘要：

本公开关于一种身份识别方法和装置，该方法包括：在对可疑音视频信息检测时，可以从可疑音视频信息中获取待识别音频信息，将待识别音频信息输入到声纹特征确定模型中进行声纹特征提取，得到待视频音频信息中发声对象的声纹特征。将待视频音频信息中发声对象的声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配，将获取到的注册声纹特征对应的发声对象的身份信息作为待识别音频信息中发声对象的身份识别结果。该方法可以基于声纹特征确定模型和声纹特征匹配模型确定待识别音频信息中发声对象的身份信息，提高身份识别的效率和准确性，从而减少人力成本。

专利类型：发明专利

申请/专利号：CN202110122528.6

申请日期：2021-01-28

公开/公告号：CN113035202A

公开/公告日：2021-06-25

主分类号：G10L17/00(2013.01)

申请/专利权人:北京达佳互联信息技术有限公司

发明/设计人:张大威;王俊;王欣;王晓瑞;王仲远

主申请人地址:100085 北京市海淀区上地西路6号1幢1层101D1-7

专利代理机构:广州三环专利商标代理有限公司

代理人:郝传鑫%贾允

国别省市代码:北京;11

权利要求：

1.一种身份识别方法，其特征在于，所述方法包括：获取待识别音频信息；将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取，得到待识别声纹特征；将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配，得到所述待识别音频信息中发声对象的身份识别结果。 2.根据权利要求1所述的身份识别方法，其特征在于，所述声纹特征匹配模型包括降维层、归一化处理层、特征匹配层、目标声纹确定层和识别结果获取层，所述将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配，得到所述待识别音频信息中发声对象的身份识别结果包括：在所述降维层中，对所述待识别声纹特征进行降维，得到降维特征数据；在所述归一化处理层中，对所述降维特征数据进行归一化处理，得到归一化特征数据；在所述特征匹配层中，对所述归一化特征数据和所述注册声纹特征进行匹配，得到声纹匹配值，所述声纹匹配值表征所述归一化特征数据和所述注册声纹特征间的匹配程度；在所述目标声纹确定层中，根据所述声纹匹配值，确定与所述归一化特征数据对应的目标注册声纹特征；在所述识别结果获取层中，根据所述目标注册声纹特征对应的身份信息，确定所述待识别音频信息中发声对象的身份识别结果。 3.根据权利要求1所述的身份识别方法，其特征在于，所述方法还包括：获取注册音频信息；将所述注册音频信息输入到声纹特征确定模型中进行声纹特征提取，得到注册声纹特征；存储所述注册声纹特征。 4.根据权利要求1所述的身份识别方法，其特征在于，所述声纹特征确定模型包括音频特征提取网络、语音活动检测网络和声纹特征提取网络，所述将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取，得到待识别声纹特征包括：将所述待识别音频信息输入到所述音频特征提取网络中，对所述待识别音频信息进行特征提取，得到目标音频特征信息；将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测，得到语音特征信息，所述语音特征信息表征所述目标音频特征信息中语音活动时段的特征信息；将所述语音特征信息输入到所述声纹特征提取网络中，对所述语音特征信息进行声纹特征提取，得到所述待识别声纹特征。 5.根据权利要求4所述的身份识别方法，其特征在于，所述音频特征提取网络包括预处理层、频域特征提取层、滤波层和目标音频获取层，所述将所述待识别音频信息输入到所述音频特征提取网络中，对所述待识别音频信息进行特征提取，得到目标音频特征信息包括：在所述预处理层中，对所述待识别音频信息进行预处理，得到音频帧信息；在所述频域特征提取层中，对所述音频帧信息进行短时傅里叶变换，得到频域特征信息；在所述滤波层中，对所述频域特征信息进行梅尔滤波，得到初始音频特征信息；在所述目标音频获取层中，对所述初始音频特征信息进行离散余弦变换，得到所述目标音频特征信息。 6.根据权利要求4所述的身份识别方法，其特征在于，所述目标音频特征信息有多个，所述将所述目标音频特征信息输入到所述语音活动检测网络中进行语音活动检测，得到语音特征信息包括：在所述语音活动检测网络中，确定每个目标音频特征信息中的语音活动起点和语音活动终点；将每个目标音频特征信息中相邻的一组语音活动起点和语音活动终点间的音频特征数据作为所述语音特征信息。 7.根据权利要求4所述的身份识别方法，其特征在于，所述语音特征信息有多个，所述声纹特征提取网络包括多个声纹特征提取层，所述将所述语音特征信息输入到所述声纹特征提取网络中，对所述语音特征信息进行声纹特征提取，得到待识别声纹特征包括：根据所述多个声纹特征提取层中每个声纹特征提取层的预设参数和所述语音特征信息，确定每个声纹特征提取层的输入特征信息；在所述多个声纹特征提取层中，对所述输入特征信息进行线性整流，得到初始声纹特征；在所述多个声纹特征提取层中，对所述初始声纹特征进行归一化处理，得到待识别声纹特征。 8.根据权利要求1到7中任一项所述的身份识别方法，其特征在于，所述方法还包括：获取样本音频信息和所述样本音频信息对应的身份标注信息；将所述样本音频信息输入到待训练声纹特征确定模型，对所述样本音频信息进行声纹特征提取，得到预测声纹特征；将所述预测声纹特征输入到回归分类网络中，对所述预测声纹特征进行分类，得到所述预测声纹特征的预测身份标识信息；根据所述预测身份标识信息和所述身份标注信息，确定声纹识别误差；基于所述声纹识别误差，对所述待训练声纹特征确定模型进行训练，得到所述声纹特征确定模型。 9.根据权利要求1到7中任一项所述的身份识别方法，其特征在于，所述方法还包括：获取多个注册音频信息和多个样本音频信息；将所述多个注册音频信息输入所述声纹特征确定模型，得到多个参考声纹特征；将所述多个样本音频信息输入所述声纹特征确定模型，得到多个样本声纹特征；基于所述多个参考声纹特征和所述多个样本声纹特征，生成多组声纹训练数据和每组声纹训练数据的匹配标注信息；将所述多组声纹训练数据输入到待训练声纹特征匹配模型中，对每组声纹训练数据中的参考声纹特征信息和样本声纹特征进行匹配，得到预测声纹匹配值；根据所述预测声纹匹配值和所述匹配标注信息，确定匹配误差数据；基于所述匹配误差数据，对所述待训练声纹特征匹配模型进行训练，得到所述声纹特征匹配模型。 10.一种身份识别装置，其特征在于，所述装置包括：音频信息获取模块，被配置为执行获取待识别音频信息；声纹特征确定模块，被配置为执行将所述待识别音频信息输入到声纹特征确定模型中进行声纹特征提取，得到待识别声纹特征；声纹特征匹配模块，被配置为执行将所述待识别声纹特征和预存储的注册声纹特征输入到声纹特征匹配模型中进行声纹特征匹配，得到所述待识别音频信息中发声对象的身份识别结果。

专利专题