并行语音合成方法、装置、设备以及计算机可读存储介质

引用

摘要：

本公开提供了一种并行语音合成方法、装置、设备以及计算机可读存储介质。方法包括将一段文本拆分成多个片段，然后根据这段文本获得多个片段的用于循环神经网络的多个初始隐状态。方法还包括基于多个初始隐状态和多个片段的输入特征，并行合成多个片段。本公开的实施例在使用循环神经网络并行合成多个片段的过程中，通过隐状态预测模型为每个片段提供初始隐状态，不仅能够提升语音合成的速度，实现实时的语音合成，而且能够缓解片段之间的隐状态中断，由此保证合成语音的质量。

专利类型：发明专利

申请/专利号：CN201910569448.8

申请日期：2019-06-27

公开/公告号：CN112151003A

公开/公告日：2020-12-29

主分类号：G10L13/02(2013.01)

申请/专利权人:百度在线网络技术(北京)有限公司

发明/设计人:王文富;孙晨曦;孙涛;陈熙;王桂彬;贾磊

主申请人地址:100080 北京市海淀区上地十街10号

专利代理机构:北京市金杜律师事务所

代理人:李辉%丁君军

国别省市代码:北京;11

权利要求：

1.一种并行语音合成方法，包括：将一段文本拆分成多个片段；基于所述一段文本，获得所述多个片段的用于循环神经网络的多个初始隐状态；以及基于所述多个初始隐状态和所述多个片段的输入特征，并行合成所述多个片段。 2.根据权利要求1所述的方法，其中所述多个片段中的每个片段是音素、音节和韵律词中的任一项，并且其中并行合成所述多个片段包括：基于每个片段的初始隐状态和输入特征，以自回归方式串行合成每个片段。 3.根据权利要求1所述的方法，其中获得所述多个片段的用于循环神经网络的多个初始隐状态包括：确定所述多个片段中的每个片段的音素级别输入特征；以及基于每个片段的音素级别输入特征，使用经训练的隐状态预测模型来预测每个片段的初始隐状态。 4.根据权利要求3所述的方法，其中并行合成所述多个片段包括：确定所述多个片段中的每个片段的帧级别输入特征；基于所述帧级别输入特征，使用声学条件模型来获得采样点级别特征；以及基于每个片段的初始隐状态和所述采样点级别特征，使用基于循环神经网络的语音合成模型来合成每个片段。 5.根据权利要求4所述的方法，其中使用声学条件模型来获得采样点级别特征包括：通过重复上采样获得所述采样点级别特征。 6.根据权利要求1所述的方法，还包括：使用训练数据来训练基于循环神经网络的语音合成模型；以及使用所述训练数据和经训练的所述语音合成模型来训练隐状态预测模型。 7.根据权利要求6所述的方法，其中训练所述基于循环神经网络的语音合成模型包括：获得所述训练数据中的训练文本的帧级别输入特征和对应的训练语音的语音采样点，所述帧级别输入特征包括音素上下文、韵律上下文、帧位置和基频中的至少一项；以及使用所述训练文本的所述帧级别输入特征和所述训练语音的所述语音采样点，来训练所述语音合成模型。 8.根据权利要求7所述的方法，其中训练所述隐状态预测模型包括：获得所述训练文本的音素级别输入特征，所述音素级别输入特征包括音素上下文和韵律上下文中的至少一项；从经训练的所述语音合成模型获得每个音素的音素级别隐状态；以及使用所述音素级别输入特征和所述音素级别隐状态来训练所述隐状态预测模型。 9.根据权利要求8所述的方法，其中训练所述隐状态预测模型还包括：对所述音素级别隐状态进行聚类以生成音素级别聚类隐状态；以及使用所述音素级别输入特征和所述音素级别聚类隐状态来训练所述隐状态预测模型。 10.根据权利要求8所述的方法，其中从经训练的所述语音合成模型获得每个音素的音素级别隐状态包括：将与每个音素相对应的多个采样点中的第一个采样点的初始隐状态确定为每个音素的音素级别隐状态。 11.一种并行语音合成装置，包括：片段拆分模块，被配置为将一段文本拆分成多个片段；隐状态获得模块，被配置为基于所述一段文本，获得所述多个片段的用于循环神经网络的多个初始隐状态；以及并行语音合成模块，被配置为基于所述多个初始隐状态和所述多个片段的输入特征，并行合成所述多个片段。 12.根据权利要求11所述的装置，其中所述多个片段中的每个片段是音素、音节和韵律词中的任一项，并且所述并行语音合成模块包括：串行语音合成模块，被配置为基于每个片段的初始隐状态和输入特征，以自回归方式串行合成每个片段。 13.根据权利要求11所述的装置，其中所述隐状态获得模块包括：音素级别输入特征确定模块，被配置为确定所述多个片段中的每个片段的音素级别输入特征；以及隐状态预测模块，被配置为基于每个片段的音素级别输入特征，使用经训练的隐状态预测模型来预测每个片段的初始隐状态。 14.根据权利要求13所述的装置，其中所述并行语音合成模块包括：帧级别输入特征确定模块，被配置为确定所述多个片段中的每个片段的帧级别输入特征；采样点级特征获得模块，被配置为基于所述帧级别输入特征，使用声学条件模型来获得采样点级别特征；以及片段合成模块，被配置为基于每个片段的初始隐状态和所述采样点级别特征，使用基于循环神经网络的语音合成模型来合成每个片段。 15.根据权利要求14所述的装置，其中所述采样点级特征获得模块包括：重复上采样模块，被配置为通过重复上采样获得所述采样点级别特征。 16.根据权利要求11所述的装置，还包括：语音合成模型训练模块，被配置为使用训练数据来训练基于循环神经网络的语音合成模型；以及隐状态预测模型训练模块，被配置为使用所述训练数据和经训练的所述语音合成模型来训练隐状态预测模型。 17.根据权利要求16所述的装置，其中所述语音合成模型训练模块包括：第一获得模块，被配置为获得所述训练数据中的训练文本的帧级别输入特征和对应的训练语音的语音采样点，所述帧级别输入特征包括音素上下文、韵律上下文、帧位置和基频中的至少一项；以及第一训练模块，被配置为使用所述训练文本的所述帧级别输入特征和所述训练语音的所述语音采样点，来训练所述语音合成模型。 18.根据权利要求17所述的装置，其中所述隐状态预测模型训练模块包括：第二获得模块，被配置为获得所述训练文本的音素级别输入特征，所述音素级别输入特征包括音素上下文和韵律上下文中的至少一项；第三获得模块，被配置为从经训练的所述语音合成模型获得每个音素的音素级别隐状态；以及第二训练模块，被配置为使用所述音素级别输入特征和所述音素级别隐状态来训练所述隐状态预测模型。 19.根据权利要求18所述的装置，其中所述第二训练模块包括：隐状态聚类模块，被配置为对所述音素级别隐状态进行聚类以生成音素级别聚类隐状态；以及第三训练模块，被配置为使用所述音素级别输入特征和所述音素级别聚类隐状态来训练所述隐状态预测模型。 20.根据权利要求18所述的装置，其中所述第三获得模块包括：音素级别隐状态确定模块，被配置为将与每个音素相对应的多个采样点中的第一个采样点的初始隐状态确定为每个音素的音素级别隐状态。 21.一种电子设备，所述电子设备包括：一个或多个处理器；以及存储器，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-10中任一项所述的方法。 22.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-10中任一项所述的方法。

专利专题