一种声纹提取模型构建方法、声纹识别方法及其相关设备

引用

摘要：

本申请公开了一种声纹提取模型构建方法、声纹识别方法及其相关设备，先根据样本语音、该样本语音的实际说话人和该样本语音的实际语种，构建声纹提取模型，以使构建好的声纹提取模型能够在不受语种干扰的情况下进行声纹特征提取；再利用该声纹提取模型针对待识别语音进行声纹特征提取，并根据该待识别语音的声纹特征，确定该待识别语音的说话人。其中，因构建好的声纹提取模型在进行声纹特征提取时几乎不受语种干扰，使得构建好的声纹提取模型具有较好的声纹特征提取性能，从而使得后续利用该声纹提取模型针对待识别语音提取的声纹特征能够更准确地表示出该待识别语音的说话人信息，如此有利于提高声纹识别准确性。

专利类型：发明专利

申请/专利号：CN202110475683.6

申请日期：2021-04-29

公开/公告号：CN113129900A

公开/公告日：2021-07-16

主分类号：G10L17/00(2013.01)

申请/专利权人:科大讯飞股份有限公司

发明/设计人:褚繁;李晋;蔡斌;罗柳平;李浩;顾屹峰;高天;方昕;闫晨亮;冯祥

主申请人地址:230088 安徽省合肥市高新区望江西路666号

专利代理机构:北京集佳知识产权代理有限公司

代理人:郭化雨

国别省市代码:安徽;34

权利要求：

1.一种声纹提取模型构建方法，其特征在于，所述方法包括：获取样本语音、所述样本语音的实际说话人和所述样本语音的实际语种；对所述样本语音进行声学特征提取，得到所述样本语音的声学特征；将所述样本语音的声学特征输入待训练模型，得到所述待训练模型输出的所述样本语音的预测说话人和所述样本语音的预测语种；根据所述样本语音的预测说话人、所述样本语音的实际说话人、所述样本语音的预测语种和所述样本语音的实际语种，更新所述待训练模型，并继续执行所述将所述样本语音的声学特征输入待训练模型的步骤，直至在达到预设停止条件时，根据所述待训练模型，构建声纹提取模型。 2.根据权利要求1所述的方法，其特征在于，所述待训练模型包括特征生成层、说话人识别层和语种识别层；所述样本语音的预测说话人和所述样本语音的预测语种的确定过程，包括：将所述样本语音的声学特征输入所述特征生成层，得到所述特征生成层输出的所述样本语音的待使用特征；将所述样本语音的待使用特征输入所述说话人识别层，得到所述说话人识别层输出的所述样本语音的预测说话人；将所述样本语音的待使用特征输入所述语种识别层，得到所述语种识别层输出的所述样本语音的预测语种。 3.根据权利要求2所述的方法，其特征在于，所述特征生成层包括第一预设层数的时延神经网络；所述样本语音的待使用特征的确定过程，包括：将所述样本语音的声学特征输入所述第一预设层数的时延神经网络，得到所述第一预设层数的时延神经网络输出的所述样本语音的待使用特征。 4.根据权利要求2所述的方法，其特征在于，所述说话人识别层包括说话人特征提取子层和说话人确定子层；所述样本语音的预测说话人的确定过程，包括：将所述样本语音的待使用特征输入所述说话人特征提取子层，得到所述说话人特征提取子层输出的所述样本语音的说话人特征；将所述样本语音的说话人特征输入所述说话人确定子层，得到所述说话人确定子层输出的所述样本语音的预测说话人。 5.根据权利要求4所述的方法，其特征在于，所述说话人特征提取子层包括统计池化子层和第二预设层数的线性子层；所述样本语音的说话人特征的确定过程，包括：将所述样本语音的待使用特征输入所述统计池化子层，得到所述统计池化子层输出的所述样本语音的统计特征；将所述样本语音的统计特征输入所述第二预设层数的线性子层，得到所述第二预设层数的线性子层输出的所述样本语音的说话人特征。 6.根据权利要求2所述的方法，其特征在于，所述语种识别层包括语种特征提取子层和语种确定子层；所述样本语音的预测语种的确定过程，包括：将所述样本语音的待使用特征输入所述语种特征提取子层，得到所述语种特征提取子层输出的所述样本语音的语种特征；将所述样本语音的语种特征输入所述语种确定子层，得到所述语种确定子层输出的所述样本语音的预测语种。 7.根据权利要求6所述的方法，其特征在于，所述语种特征提取子层包括第三预设层数的双向长短时记忆网络、线性子层和统计子层；所述样本语音的语种特征的确定过程，包括：将所述样本语音的待使用特征输入所述第三预设层数的双向长短时记忆网络，得到所述第三预设层数的双向长短时记忆网络输出的所述样本语音的语种提取信息；将所述样本语音的语种提取信息输入所述线性子层，得到所述线性子层输出的所述样本语音的语种变换信息；将所述样本语音的语种变换信息输入所述统计子层，得到所述统计子层输出的所述样本语音的语种特征。 8.根据权利要求1所述的方法，其特征在于，所述待训练模型包括特征生成层、说话人识别层和语种识别层；其中，所述说话人识别层的输入数据包括所述特征生成层的输出数据；所述语种识别层的输入数据包括所述特征生成层的输出数据；若所述待训练模型是利用反向传播算法进行更新的，则所述待训练模型的更新过程包括：根据所述样本语音的预测说话人、所述样本语音的实际说话人、所述样本语音的预测语种和所述样本语音的实际语种，确定由说话人识别层向特征生成层回传的梯度和由语种识别层向特征生成层回传的梯度；将所述由语种识别层向特征生成层回传的梯度与负值参数进行相乘，得到由语种识别层向特征生成层回传的校正梯度；根据所述由说话人识别层向特征生成层回传的梯度和所述由语种识别层向特征生成层回传的校正梯度，对所述特征生成层进行更新。 9.根据权利要求8所述的方法，其特征在于，在所述将所述由语种识别层向特征生成层回传的梯度与负值参数进行相乘之前，所述方法还包括：获取所述待训练模型的更新次数；根据所述待训练模型的更新次数，确定所述负值参数。 10.根据权利要求9所述的方法，其特征在于，所述负值参数的确定公式为：式中，Wlan→char表示所述负值参数；r表示p对应的权重；p表示所述负值参数的动态变化因子；a表示底数，且0＜a＜1；Nnow表示所述待训练模型的更新次数，且Nnow为非负整数。 11.根据权利要求1所述的方法，其特征在于，所述待训练模型包括特征生成层、说话人识别层和语种识别层；其中，所述说话人识别层的输入数据包括所述特征生成层的输出数据；所述语种识别层的输入数据包括所述特征生成层的输出数据；所述根据所述待训练模型，构建声纹提取模型，包括：根据所述特征生成层和所述说话人识别层，构建声纹提取模型。 12.根据权利要求11所述的方法，其特征在于，所述说话人识别层包括说话人特征提取子层和说话人确定子层，且所述说话人确定子层的输入数据包括所述说话人特征提取子层的输出数据；若所述声纹提取模型包括声纹信息提取层和声纹特征生成层，且所述声纹特征生成层的输入数据包括所述声纹信息提取层的输出数据，则所述根据所述特征生成层和所述说话人识别层，构建声纹提取模型，包括：根据所述特征生成层确定所述声纹信息提取层，并根据所述说话人特征提取子层确定所述声纹特征生成层。 13.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述样本语音按照至少一个预设倍速进行变速处理，得到所述样本语音的至少一个变速语音；对所述样本语音的至少一个变速语音分别进行声学特征提取，得到所述样本语音的至少一个变速特征；所述将所述样本语音的声学特征输入待训练模型，得到所述待训练模型输出的所述样本语音的预测说话人和所述样本语音的预测语种，包括：将所述样本语音的声学特征和所述样本语音的至少一个变速特征输入待训练模型，得到所述待训练模型输出的所述样本语音的预测说话人和所述样本语音的预测语种。 14.一种声纹识别方法，其特征在于，所述方法包括：获取待识别语音；对所述待识别语音进行声学特征提取，得到所述待识别语音的声学特征；根据所述待识别语音的声学特征和预先构建的声纹提取模型，确定所述待识别语音的声纹特征；其中，所述声纹提取模型是利用权利要求1-13任一项所述的声纹提取模型构建方法进行构建的；根据所述待识别语音的声纹特征，确定所述待识别语音的说话人。 15.一种声纹提取模型构建装置，其特征在于，包括：样本获取单元，用于获取样本语音、所述样本语音的实际说话人和所述样本语音的实际语种；第一提取单元，用于对所述样本语音进行声学特征提取，得到所述样本语音的声学特征；样本预测单元，用于将所述样本语音的声学特征输入待训练模型，得到所述待训练模型输出的所述样本语音的预测说话人和所述样本语音的预测语种；模型更新单元，用于根据所述样本语音的预测说话人、所述样本语音的实际说话人、所述样本语音的预测语种和所述样本语音的实际语种，更新所述待训练模型，并返回所述样本预测单元执行所述将所述样本语音的声学特征输入待训练模型，直至在达到预设停止条件时，根据所述待训练模型，构建声纹提取模型。 16.一种声纹识别装置，其特征在于，包括：语音获取单元，用于获取待识别语音；第二提取单元，用于对所述待识别语音进行声学特征提取，得到所述待识别语音的声学特征；声纹预测单元，用于根据所述待识别语音的声学特征和预先构建的声纹提取模型，确定所述待识别语音的声纹特征；其中，所述声纹提取模型是利用权利要求1-13任一项所述的声纹提取模型构建方法进行构建的；声纹识别单元，用于根据所述待识别语音的声纹特征，确定所述待识别语音的说话人。 17.一种设备，其特征在于，所述设备包括：处理器、存储器、系统总线；所述处理器以及所述存储器通过所述系统总线相连；所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1至13任一项所述的声纹提取模型构建方法，或者执行权利要求14所述的声纹识别方法。 18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1至13任一项所述的声纹提取模型构建方法，或者执行权利要求14所述的声纹识别方法。 19.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1至13任一项所述的声纹提取模型构建方法，或者执行权利要求14所述的声纹识别方法。

专利专题