一种语音合成方法和装置

引用

摘要：

本发明实施例提供了一种语音合成方法和装置，所述方法包括：获取包括至少一个句子的待处理文本，并从待处理文本提取文本特征；获取句重音特征以及针对句重音特征的目标声学模型；其中，目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到，以及目标声学模型包括针对句重音特征的偏置层；根据文本特征与句重音特征，以及目标声学模型，得到具有句重音特征的声学特征；对声学特征进行处理，得到具有句重音特征的语音序列。通过将句重音特征作为单独特征编码，为语音合成提供额外的信息，并结合自适应训练的训练方法，使得声学模型在训练数据有限的前提下，无需依靠工程经验以及经由人为调节，可以自动生成带有句重音的语音序列。

专利类型：发明专利

申请/专利号：CN202010733782.5

申请日期：2020-07-27

公开/公告号：CN112002302A

公开/公告日：2020-11-27

主分类号：G10L13/02(2013.01)

申请/专利权人:北京捷通华声科技股份有限公司

发明/设计人:李婉;李健;武卫东

主申请人地址:100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

专利代理机构:北京润泽恒知识产权代理有限公司

代理人:莎日娜

国别省市代码:北京;11

权利要求：

1.一种语音合成方法，其特征在于，所述方法包括：获取包括至少一个句子的待处理文本，并从所述待处理文本提取文本特征；获取句重音特征以及针对句重音特征的目标声学模型；其中，所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到，以及所述目标声学模型包括针对句重音特征的偏置层；根据所述文本特征与所述句重音特征，以及所述目标声学模型，得到具有句重音特征的声学特征；对所述声学特征进行处理，得到具有句重音特征的语音序列。 2.根据权利要求1所述的方法，其特征在于，所述目标声学模型通过如下方式生成：构建针对音色特征的第一偏置层；根据预设声学模型以及所述针对音色特征的第一偏置层，得到针对音色特征的预先声学模型；构建针对句重音特征的第二偏置层；根据所述针对句重音特征的第二偏置层，以及所述针对音色特征的预先声学模型，得到针对句重音特征的目标声学模型。 3.根据权利要求2所述的方法，其特征在于，所述根据预设声学模型以及所述针对音色特征的第一偏置层，得到针对音色特征的预先声学模型，包括：获取归一化文本特征，以及根据所述针对音色特征的第一偏置层获取第一偏置项；采用归一化文本特征以及所述第一偏置项所述第一训练模型进行训练，得到针对音色特征的预先声学模型。 4.根据权利要求3所述的方法，其特征在于，所述第一偏置层包括第一嵌入层；所述根据所述针对音色特征的第一偏置层获取第一偏置项，包括：获取针对音色特征的第一训练集；所述第一训练集包括存在多说话人的音色特征样本数据；对所述音色特征样本数据进行独热编码，得到音色特征向量；将所述音色特征向量经过所述第一嵌入层，得到针对音色特征的第一偏置项。 5.根据权利要求3所述的方法，其特征在于，所述根据所述针对句重音特征的第二偏置层，以及所述针对音色特征的预先声学模型，得到针对句重音特征的目标声学模型，包括：根据所述针对句重音特征的第二偏置项获取第二偏置项；采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练，得到针对句重音特征的目标声学模型。 6.根据权利要求5所述的方法，其特征在于，所述第二偏置层包括第二嵌入层；所述第一偏置项具有预设长度；所述根据所述第二偏置项获取针对句重音特征的第二偏置项，包括：获取预设长度的可训练随机序列以及针对句重音特征的第二训练集；所述第二训练集包括存在单个说话人的句重音特征样本数据；对所述句重音特征样本数据进行独热编码，得到句重音特征向量；将所述可训练随机序列作为随机偏置项；将所述句重音特征向量与所述随机偏置项相加并经过所述第二嵌入层，得到针对句重音特征的第二偏置项。 7.根据权利要求5所述的方法，其特征在于，所述预先训练的声学模型包括浅层参数以及深层参数；所述采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练，得到针对句重音特征的目标声学模型，还包括：对所述预先声学模型的浅层参数进行锁定，以及对所述预先声学模型的深层参数进行调整，得到针对句重音特征的目标声学模型。 8.一种语音合成装置，其特征在于，所述装置包括：文本特征提取模块，用于获取包括至少一个句子的待处理文本，并从所述待处理文本提取文本特征；句重音特征获取模块，用于获取句重音特征；目标声学模型获取模块，用于获取针对句重音特征的目标声学模型；其中，所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到，以及所述目标声学模型包括针对句重音特征的偏置层；声学特征生成模块，用于根据所述文本特征与所述句重音特征，以及所述目标声学模型，得到具有句重音特征的声学特征；语音序列生成模块，用于对所述声学特征进行处理，得到具有句重音特征的语音序列。 9.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述语音合成方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述语音合成方法的步骤。

专利专题