模型的训练方法、装置、语音转换方法、设备及存储介质

引用

摘要：

本申请涉及语音处理领域，并公开了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质，所述方法包括：获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型。以降低构建模型对于音频语料的要求，降低模型构建的复杂度。

专利类型：发明专利

申请/专利号：CN202011446585.1

申请日期：2020-12-11

公开/公告号：CN112509600A

公开/公告日：2021-03-16

主分类号：G10L25/24(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:陈闽川;马骏;王少军;肖京

主申请人地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:深圳市力道知识产权代理事务所(普通合伙)

代理人:贺小旺

国别省市代码:广东;44

权利要求：

1.一种语音转换模型的训练方法，其特征在于，包括：获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和预测标签；根据所述输出梅尔频谱的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。 2.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述方法还包括：当所述判别网络输出的所述输出梅尔频谱的预测标签的准确度达到预设值时，将所述无标签音频的样本梅尔频谱输入所述判别网络，将得到的预测标签作为所述无标签音频的标签。 3.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述方法包括：调整所述样本音频的语速，得到调速样本音频，并将所述调速样本音频转换为调速梅尔频谱；根据所述调速梅尔频谱对判别网络进行训练，使所述判别网络输出所述调速梅尔频谱所对应的语速。 4.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述根据所述输出梅尔频谱的类型概率对所述生成网络和所述判别网络进行交替迭代训练，包括：根据所述输出梅尔频谱的类型概率，计算所述生成网络的类型损失函数的值和所述判别网络的类型损失函数的值；根据所述生成网络的类型损失函数的值以及根据所述判别网络的类型损失函数的值，分别对所述生成网络和所述类型网络进行交替迭代训练；当所述判别网络输出的所述类型概率达到预设值时，完成所述生成网络的训练。 5.根据权利要求1所述的语音转换模型的训练方法，其特征在于，所述根据所述输出梅尔频谱的类型概率和预测标签对所述生成网络和所述判别网络进行交替迭代训练，包括：若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为样本音频，且所述输出梅尔频谱的预测标签与对应的所述样本音频的标签不同时，将该次错误计入所述判别网络的标签损失函数；若根据所述输出梅尔频谱的类型概率确定所述输出梅尔频谱对应的音频为噪声音频，且所述输出梅尔频谱的预测标签与对应的所述噪声音频的标签不同时，将该次错误计入所述生成网络的标签损失函数；根据所述生成网络的标签损失函数对所述生成网络进行迭代训练，以及根据所述判别网络的标签损失函数对所述类型网络进行迭代训练。 6.一种语音转换方法，其特征在于，包括：获取用户的待转换音频数据和目标转换标签；将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用权利要求1至5中任一项所述的语音转换模型的训练方法训练得到的生成网络。 7.一种语音转换模型的训练装置，其特征在于，包括：样本获取模块，用于获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；噪声采集模块，用于采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；判别输出模块，用于将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；模型训练模块，用于根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的生成网络作为语音转换模型，完成模型训练。 8.一种语音转换装置，其特征在于，包括：数据获取模块，用于获取用户的待转换音频数据和目标转换标签；音频转换模块，用于将所述待转换音频数据和所述目标转换标签输入预先训练的语音转换模型，得到转换后的音频数据；其中，所述预先训练的语音转换模型为采用权利要求1至5中任一项所述的语音转换模型的训练方法训练得到的生成网络。 9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的语音转换模型的训练方法和权利要求6所述的语音转换方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的语音转换模型的训练方法和权利要求6所述的语音转换方法。

专利专题