模型训练方法、模仿音检测方法、装置、设备及存储介质

引用

摘要：

本申请实施例公开了一种模型训练方法、模仿音检测方法、装置、设备及存储介质，通过模仿音检测模型对样本语音进行特征提取，得到样本语音的初始特征序列；对初始特征序列中的部分初始特征进行修改；利用修改后的初始特征序列，确定样本语音的模仿音检测结果；以样本语音的模仿音检测结果趋近于样本语音的标签为目标，对模仿音检测模型的参数进行更新。本申请公开的方案，在模型训练过程中对初始特征序列进行修改，相当于对样本语音增加了噪声或样本语音丢失了一部分有用信息，保证模型的准确性和鲁棒性。

专利类型：发明专利

申请/专利号：CN202010624032.4

申请日期：2020-06-30

公开/公告号：CN111785303A

公开/公告日：2020-10-16

主分类号：G10L25/78(2013.01)

申请/专利权人:合肥讯飞数码科技有限公司

发明/设计人:蒋俊;方磊;宣璇

主申请人地址:230088 安徽省合肥市高新区望江西路666号讯飞大厦1805、1807室

专利代理机构:北京集佳知识产权代理有限公司

代理人:薛娇

国别省市代码:安徽;34

权利要求：

1.一种模仿音检测模型训练方法，其特征在于，包括：对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列；对所述初始特征序列中的部分初始特征进行修改，得到修改后的特征序列；利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果；以所述样本语音的各个语音帧的模仿音检测结果趋近于所述样本语音的标签为目标，对所述模仿音检测模型的参数进行更新；所述标签表征所述样本语音中的各个语音帧是否为模仿音。 2.根据权利要求1所述的方法，其特征在于，所述对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列，包括：获取样本语音的各个语音帧的声学特征；对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，作为所述样本语音的初始特征序列。 3.根据权利要求2所述的方法，其特征在于，所述对所述初始特征序列中的部分初始特征进行修改，包括：将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改。 4.根据权利要求3所述的方法，其特征在于，所述将所述样本语音的预置比例的语音帧的初始编码特征作为所述部分初始特征进行修改，包括：对所述预置比例的语音帧的初始编码特征在时域的预置位置进行修改和/或在频域的预置位置进行修改。 5.根据权利要求3所述的方法，其特征在于，所述利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果，包括：对所述修后的特征序列中的每一个特征分别进行编码，得到各个语音帧的目标编码特征，作为所述样本语音的目标特征序列；利用所述目标特征序列，确定所述样本语音的各个语音帧的模仿音检测结果。 6.根据权利要求2所述的方法，其特征在于，所述对所述样本语音的各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：对于每一个语音帧，获取该语音帧的声学特征的隐层特征，作为该语音帧的初始编码特征；或者，对于每一个语音帧，获取该语音帧的声学特征的隐层特征；对该语音帧的声学特征进行二阶差分，得到该语音帧的第一动态特征；对该语音帧的隐层特征进行二阶差分，得到该语音帧的第二动态特征；将该语音帧的隐层特征、所述第一动态特征和所述第二动态特征融合，得到该语音帧的初始编码特征。 7.根据权利要求2所述的方法，其特征在于，所述对各个语音帧的声学特征分别进行编码，得到各个语音帧的初始编码特征，包括：对于每一语音帧，通过所述模仿音检测模型的第一编码模块获取该语音帧的声学特征的初始编码特征；所述第一编码模块是基于预先训练好的语音分类模型中的第二编码模块获得的；所述语音分类模型是以由样本模仿音和样本自然人语音构成的样本语音对及其对应的标签对为训练数据训练好的；所述标签对用于标识所述样本语音对中的模仿音和自然人语音。 8.根据权利要求7所述的方法，其特征在于，所述对所述模仿音检测模型的参数进行更新包括对所述第一编码模块的参数的更新；或者，所述对所述模仿音检测模型的参数进行更新不包括对所述第一编码模块的参数的更新。 9.根据权利要求7所述的方法，其特征在于，所述语音分类模型通过如下方式训练得到：通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，得到各个模仿语音帧的编码特征和各个自然人语音帧的编码特征；通过所述语音分类模型的特征处理模块将各个模仿语音帧的编码特征和各个自然人语音帧的编码特征融合，得到所述样本语音对的融合特征；利用所述融合特征，确定所述样本语音对中各语音的语音分类结果；以所述样本语音对中各语音的语音分类结果趋近于所述样本语音对对应的标签对为目标，对所述第二编码模块和所述特征处理模块的参数进行更新。 10.根据权利要求9所述的方法，其特征在于，所述通过所述第二编码模块对样本语音对中的样本模仿音的各个模仿语音帧的声学特征和样本自然人语音的各个自然人语音帧的声学特征分别进行编码，包括：对于所述样本模仿音的每一个模仿语音帧，获取该模仿语音帧的声学特征的隐层特征；对于所述样本自然人语音的每一个自然人语音帧，获取该自然人语音帧的声学特征的隐层特征；对每一个模仿语音帧的声学特征分别进行二阶差分，得到各个模仿语音帧的第一动态特征；对每一个自然人语音帧帧的声学特征分别进行二阶差分，得到各个自然人语音帧帧的第一动态特征；对每一个模仿语音帧的隐层特征分别进行二阶差分，得到各个模仿语音帧的第二动态特征；对每一个自然人语音帧的隐层特征分别进行二阶差分，得到各个自然人语音帧的第二动态特征；对于每一个模仿语音帧，将该模仿语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该模仿语音帧的编码特征；对于每一个自然人语音帧，将该自然人语音帧的隐层特征、第一动态特征和第二动态特征融合，得到该自然人语音帧的编码特征。 11.根据权利要求1所述的方法，其特征在于，训练所述模仿音检测模型所用的训练数据集包括第一数据集，所述第一数据集中包括采集的语音，以及如下几种语音中的至少一种：对所述采集的语音进行变速得到的变速语音，对所述采集的语音进行加噪处理得到的噪声语音；其中，所述采集的语音包括采集的模仿音和采集的自然人语音；所述样本语音为所述第一数据集中的任意一种语音。 12.一种模仿音检测方法，其特征在于，包括：获取待检测语音；将所述待检测语音输入如权利要求1-11任意一项所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模仿音检测结果。 13.一种模仿音检测模型训练装置，其特征在于，包括：特征提取模块，用于通过所述模仿音检测模型对样本语音的各个语音帧分别进行特征提取，得到所述样本语音的初始特征序列；修改模块，用于通过所述模仿音检测模型对所述初始特征序列中的部分初始特征进行修改，得到修改后的特征序列；确定模块，用于通过所述模仿音检测模型利用所述修改后的特征序列，确定所述样本语音的各个语音帧的模仿音检测结果；更新模块，用于过所述模仿音检测模型以所述样本语音的各个语音帧的模仿音检测结果趋近于所述样本语音的标签为目标，对所述模仿音检测模型的参数进行更新；所述标签表征所述样本语音中的各个语音帧是否为模仿音。 14.一种模仿音检测装置，其特征在于，包括：获取模块，用于获取待检测语音；检测模块，用于将所述待检测语音输入如权利要求1-11任意一项所述的模仿音检测模型训练方法训练得到的模仿音检测模型，得到模音检测结果。 15.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器，用于存储程序；所述处理器，用于执行所述程序，实现如权利要求1-11中任一项所述的模仿音检测模型训练方法的各个步骤，或者，实现如权利要求12所述的模仿音检测方法的各个步骤。 16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-11中任一项所述的模仿音检测模型训练方法的各个步骤，或者，实现如权利要求12所述的模仿音检测方法的各个步骤。

专利专题