语音合成方法、装置

引用

摘要：

本申请提供了一种语音合成方法、装置、电子设备及计算机可读存储介质；方法包括：将目标文本分解为多个音素，并确定每个音素的上下文特征；对每个音素的上下文特征进行时长预测处理，得到每个音素的预测时长；基于每个音素的预测时长对每个音素的上下文特征进行扩展处理，得到每个音素的扩展特征；对每个音素的扩展特征进行声学特征预测处理，得到每个音素的声学特征，将每个音素的声学特征合成为文本声学特征；将文本声学特征转换成语音信号。通过本申请，能够提高语音合成的效率。

专利类型：发明专利

申请/专利号：CN202010880219.0

申请日期：2020-08-27

公开/公告号：CN111968618A

公开/公告日：2020-11-20

主分类号：G10L13/02(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:张文杰;陈凌辉

主申请人地址:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:北京派特恩知识产权代理有限公司

代理人:高天华%张颖玲

国别省市代码:广东;44

权利要求：

1.一种语音合成方法，其特征在于，所述方法包括：将目标文本分解为多个音素，并确定每个音素的上下文特征；对每个音素的上下文特征进行时长预测处理，得到每个音素的预测时长；基于每个音素的预测时长对每个音素的上下文特征进行扩展处理，得到每个音素的扩展特征；对每个音素的扩展特征进行声学特征预测处理，得到每个音素的声学特征，将每个音素的声学特征合成为文本声学特征；将所述文本声学特征转换成语音信号。 2.根据权利要求1所述的方法，其特征在于，所述将目标文本分解为多个音素，并确定每个音素的上下文特征，包括：将所述目标文本分解为多个音素，并确定每个音素的嵌入向量；对每个音素的嵌入向量进行特征提取处理，得到每个音素的上下文特征；所述将目标文本分解为多个音素，并确定每个音素的嵌入向量，包括：对所述目标文本进行文本归一化处理，得到词序列；将所述词序列分解为多个音节，并将每个音节分解为多个音素；确定所述多个音素中每个音素的嵌入向量。 3.根据权利要求2所述的方法，其特征在于，所述对每个音素的嵌入向量进行特征提取处理，得到每个音素的上下文特征，包括：对每个音素的嵌入向量进行非线性变换，得到每个音素对应的非线性特征；确定与每个音素的非线性特征对应的上下文特征。 4.根据权利要求1所述的方法，其特征在于，所述对每个音素的上下文特征进行时长预测处理，得到每个音素的预测时长，包括：对每个音素的上下文特征进行线性变换，得到每个音素的预测时长。 5.根据权利要求1所述的方法，其特征在于，所述基于每个音素的预测时长对每个音素的上下文特征进行扩展处理，得到每个音素的扩展特征，包括：将每个音素的上下文特征按照每个音素的预测时长的帧数进行等量复制，得到每个音素的复制特征；对每个音素的复制特征进行位置编码，得到每个音素的位置编码矩阵；将每个音素的位置编码矩阵顺序拼接于每个音素对应的复制特征的末端，得到每个音素的扩展特征。 6.根据权利要求5所述的方法，其特征在于，所述对每个音素的复制特征进行位置编码，得到每个音素的位置编码矩阵，包括：确定每个音素的复制特征的编码相对位置和编码绝对位置；根据每个音素的复制特征的编码相对位置和编码绝对位置对复制特征进行位置编码，得到位置编码矩阵。 7.根据权利要求1所述的方法，其特征在于，所述对每个音素的扩展特征进行声学特征预测处理，得到每个音素的声学特征，包括：确定每个音素的扩展特征对应的上下文特征；对每个音素的扩展特征对应的上下文特征进行线性变换，得到每个音素的声学特征；所述将每个音素的声学特征合成为文本声学特征，包括：将每个音素的声学特征按照每个音素在所述目标文本中的顺序进行拼接，得到所述文本声学特征。 8.根据权利要求1所述的方法，其特征在于，所述将所述文本声学特征转换成语音信号，包括：根据所述文本声学特征确定梅尔频谱；对所述梅尔频谱进行逆傅里叶变换，得到基础语音信号；对所述基础语音信号进行小波变换，得到去噪的语音信号。 9.根据权利要求1至8任一项所述的方法，其特征在于，在将目标文本分解为多个音素，并确定每个音素的上下文特征之前，所述方法还包括：通过声学模型中的特征抽取模块确定语音样本中每个音素的上下文特征；通过所述声学模型中的时长预测模块确定所述语音样本中每个音素的预测时长；通过所述声学模型中的声学特征预测模块确定所述语音样本中每个音素的声学特征；基于所述语音样本中每个音素的预测时长与被标注的实际时长之间的差值，在所述时长预测模块和所述特征抽取模块中进行反向传播，以更新所述时长预测模块和所述特征抽取模块的参数；基于所述语音样本中每个音素的声学特征与被标注的实际声学特征之间的差值，在所述声学特征预测模块和所述特征抽取模块中进行反向传播，以更新所述声学特征预测模块和所述特征抽取模块的参数。 10.一种语音合成装置，其特征在于，包括：文本分析模块，用于将目标文本分解为多个音素；声学模型模块，用于：确定每个音素的上下文特征；对每个音素的上下文特征进行时长预测处理，得到每个音素的预测时长；基于每个音素的预测时长对每个音素的上下文特征进行扩展处理，得到每个音素的扩展特征；对每个音素的扩展特征进行声学特征预测处理，得到每个音素的声学特征，将每个音素的声学特征合成为文本声学特征；声码器模块，用于将所述文本声学特征转换成语音信号。

专利专题