语音合成模型的生成方法、装置、存储介质及电子设备

引用

摘要：

本申请实施例公开了一种语音合成模型的生成方法、装置、存储介质及电子设备，属于计算机技术领域。方法包括：服务器基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据，基于至少两个训练音频数据进行训练得到语音合成模型，实现了对训练数据的扩展，为训练语音合成模型提供充足的训练数据，以确保能生成质量较好的语音合成模型。

专利类型：发明专利

申请/专利号：CN202010827835.X

申请日期：2020-08-17

公开/公告号：CN112116903A

公开/公告日：2020-12-22

主分类号：G10L13/02(2013.01)

申请/专利权人:北京大米科技有限公司

发明/设计人:杨惠;梁光;吴雨璇;舒景辰;周鼎皓

主申请人地址:100025 北京市朝阳区姚家园南路1号惠通时代广场6号楼

专利代理机构:北京恒博知识产权代理有限公司

代理人:张晓芳

国别省市代码:北京;11

权利要求：

1.一种语音合成模型的生成方法，其特征在于，所述方法，包括：基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据；基于至少两个训练音频数据进行训练得到所述语音合成模型。 2.根据权利要求1所述的方法，其特征在于，所述基于至少两个训练音频数据进行训练得到所述语音合成模型，还包括：基于所述样本音频数据进行训练得到所述语音合成模型。 3.根据权利要求2所述的方法，其特征在于，所述基于至少两个训练音频数据进行训练得到所述语音合成模型，包括：获取样本文本数据，以及获取所述至少两个训练音频数据和所述样本音频数据；对所述样本文本数据分别进行编码处理和解码处理得到所述样本文本数据当前对应的梅尔频谱；在损失值小于或等于预设阈值时生成所述预训练的语音合成模型；其中，所述损失值为所述样本文本数据当前对应的梅尔频谱与所述至少两个训练音频数据及所述样本音频数据对应的梅尔频谱间的损失值。 4.根据权利要求3所述的方法，其特征在于，所述获取所述至少两个训练音频数据和所述样本音频数据，包括：分别获取所述至少两个训练音频数据和所述样本音频数据各自对应的梅尔频谱；将所述梅尔频谱添加到样本梅尔频谱集合中。 5.根据权利要求4所述的方法，其特征在于，所述分别获取所述至少两个训练音频数据和所述样本音频数据各自对应的梅尔频谱，包括：确定所述至少两个训练音频数据和所述样本音频数据各自对应的线性频谱；将所述线性频谱转换成所述至少两个训练音频数据和所述样本音频数据各自对应的所述梅尔频谱。 6.根据权利要求4或5所述的方法，其特征在于，所述对所述样本文本数据分别进行编码处理和解码处理得到所述样本文本数据当前对应的梅尔频谱；在损失值小于或等于预设阈值时生成所述预训练的语音合成模型；其中，所述损失值为所述样本文本数据当前对应的梅尔频谱与所述至少两个训练音频数据及所述样本音频数据对应的梅尔频谱间的损失值，包括：获取样本文本数据；对所述样本文本数据进行编码处理得到音素序列向量；对所述音素序列向量进行时长提取处理得到音素对齐向量；对所述音素对齐向量进行解码处理得到所述样本文本数据当前对应的梅尔频谱；分别计算所述样本文本数据当前对应的梅尔频谱与所述样本梅尔频谱集合中的至少一个梅尔频谱间的损失值；在所述损失值小于或等于预设阈值时生成所述语音合成模型。 7.根据权利要求1所述的方法，其特征在于，所述基于至少两个训练音频数据进行训练得到所述语音合成模型之后，还包括：获取文本数据，并将所述文本数据转换成至少一个音素序列；基于所述语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱；基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音。 8.一种语音合成模型的生成装置，其特征在于，所述装置包括：采样模块，用于基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据；训练模块，用于基于至少两个训练音频数据进行训练得到所述语音合成模型。 9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。 10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。

专利专题