基于深度学习的语音训练方法、装置、设备以及存储介质

引用

摘要：

本发明公开了一种基于深度学习的语音训练方法、装置、计算机设备以及存储介质，应用于人工智能技术领域，提供通过教师‑学生神经网络训练语音合成模型的方法，能够高效、快速、低资源消耗低训练语音合成模型。本发明提供的方法包括：对第一音素序列进行编码得到第一音素编码值；对第一音素编码值进行时长预测处理得到第一发音时长预测值；对第一音素序列中的每个音素进行扩展处理，得到第一音素序列中的每个音素的扩展特征；将第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；通过训练好的教师神经网络提供的隐变量以及第一梅尔频谱值对学生神经网络进行训练，训练至学生神经网络的第一损失函数收敛时，得到训练好的学生神经网络。

专利类型：发明专利

申请/专利号：CN202011593537.5

申请日期：2020-12-29

公开/公告号：CN112735389A

公开/公告日：2021-04-30

主分类号：G10L15/06(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:孙奥兰;王健宗;程宁

主申请人地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:深圳国新南方知识产权代理有限公司

代理人:叶小翠

国别省市代码:广东;44

权利要求：

1.一种基于深度学习的语音训练方法，其特征在于，包括以下步骤：对第一音素序列进行编码，得到第一音素编码值；对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。 2.根据权利要求1所述的基于深度学习的语音训练方法，其特征在于，训练所述教师神经网络的步骤包括：对第二音素序列进行编码，得到第二音素键编码值；对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；根据与所述第二音素序列对应的真实梅尔频谱值和所述第二梅尔频谱值对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。 3.根据权利要求2所述的基于深度学习的语音训练方法，其特征在于，在所述通过预先训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤中，还包括：所述训练好的教师神经网络对所述第一音素序列进行编码，得到第三音素键编码值；所述训练好的教师神经网络对与所述第一音素序列对应的梅尔频谱真实值向左偏移预设值后进行编码，得到第三梅尔频谱编码值；所述训练好的教师神经网络对第三音素编码值以及第三梅尔频谱真实编码值进行注意力机制处理，得到注意力加和的第三音素编码值以及第三梅尔频谱真实编码值；将所述注意力加和的所述第三音素编码值以及第三梅尔频谱编码值变换为第三梅尔频谱值；通过所述训练好的教师神经网络将所述注意力加和的所述第三音素编码值以及第三梅尔频谱真实编码值、所述第三梅尔频谱值作为所述隐变量输出到所述学生神经网络。 4.根据权利要求3所述的基于深度学习的语音训练方法，其特征在于：所述第一损失函数选用所述第一梅尔频谱值和所述第三梅尔频谱值之间的均值绝对误差和；或，所述第一损失函数选用Huber损失函数。 5.根据权利要求3所述的基于深度学习的语音训练方法，其特征在于，所述基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征的步骤具体包括：根据所述训练好的教师神经网络从所述与所述第一音素序列对应的梅尔频谱真实值抽取的特征对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征。 6.根据权利要求1所述的基于深度学习的语音训练方法，其特征在于，所述通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络的步骤之后，还包括：将所述训练好的学生神经网络连接到一个预训练好的声码器；通过所述训练好的学生神经网络将输入的音素序列转换为对应的梅尔频谱值；通过所述声码器将所述梅尔频谱值转换为语音。 7.一种基于深度学习的语音训练装置，其特征在于，包括以下模块：第一音素编码模块，用于对第一音素序列进行编码，得到第一音素编码值；时长预测处理模块，用于对所述第一音素编码值进行时长预测处理，得到第一发音时长预测值；扩展处理模块，用于基于所述第一发音时长预测值对所述第一音素序列中的每个音素进行扩展处理，得到所述第一音素序列中的每个音素的扩展特征；第一梅尔频谱值变换模块，用于将所述第一音素序列中的每个音素的扩展特征变换为第一梅尔频谱值；学生神经网络训练模块，用于通过训练好的教师神经网络提供的隐变量以及所述第一梅尔频谱值对学生神经网络进行训练，训练至所述学生神经网络的第一损失函数收敛时，得到训练好的所述学生神经网络。 8.根据权利要求7所述的基于深度学习的语音训练装置，其特征在于，所述教师神经网络包括以下模块：第二音素编码模块，用于对第二音素序列进行编码，得到第二音素键编码值；第二梅尔频谱编码模块，用于对与所述第二音素序列对应的真实梅尔频谱值向左偏移预设值后进行编码，得到第二梅尔频谱编码值；注意力机制处理模块，用于对所述第二音素编码值以及所述第二梅尔频谱编码值进行注意力机制处理，得到注意力加和的所述第二音素编码值以及所述第二梅尔频谱编码值；第二梅尔频谱值变换模块，用于将所述注意力加和的所述第二素编码值以及所述第二梅尔频谱真实编码值变换为第二梅尔频谱值；教师神经网络自训练模块，用于根据与所述第二音素序列对应的真实梅尔频谱和所述第二梅尔频谱对所述教师神经网络进行自训练，直至所述教师神经网络的第二损失函数收敛，得到训练好的所述教师神经网络。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述基于深度学习的语音训练方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述基于深度学习的语音训练方法的步骤。

专利专题