基于唱本的语音合成方法、装置、可读介质和电子设备

引用

摘要：

本公开涉及一种基于唱本的语音合成方法、装置、可读介质和电子设备，涉及电子信息处理技术领域，该方法包括：获取目标唱本中包括的目标文本和目标文本对应目标乐谱，提取目标文本对应的音素序列，和目标乐谱对应的音高序列，音高序列包括：音素序列中每个音素对应的音高，根据音素序列，通过预先训练的时长预测模型预测时长序列，时长序列包括：音素序列中每个音素对应的时长，根据音素序列、音高序列和时长序列，通过预先训练的语音合成模型合成目标文本对应的符合目标乐谱的目标音频，且目标音频与时长序列匹配。本公开能够根据唱本中包括的文本和乐谱，确定对应的音素序列、音高序列和时长序列，从而合成符合唱本的音频，提高了音频的表现力。

专利类型：发明专利

申请/专利号：CN202110032064.X

申请日期：2021-01-11

公开/公告号：CN112786013A

公开/公告日：2021-05-11

主分类号：G10L13/10(2013.01)

申请/专利权人:北京有竹居网络技术有限公司

发明/设计人:潘俊杰

主申请人地址:101299 北京市平谷区林荫北街13号信息大厦802室

专利代理机构:北京英创嘉友知识产权代理事务所(普通合伙)

代理人:魏云鹿

国别省市代码:北京;11

权利要求：

1.一种基于唱本的语音合成方法，其特征在于，所述方法包括：获取目标唱本中包括的目标文本和所述目标文本对应目标乐谱；提取所述目标文本对应的音素序列，和所述目标乐谱对应的音高序列，所述音高序列包括：所述音素序列中每个音素对应的音高；根据所述音素序列，通过预先训练的时长预测模型预测时长序列，所述时长序列包括：所述音素序列中每个音素对应的时长；根据所述音素序列、所述音高序列和所述时长序列，通过预先训练的语音合成模型合成所述目标文本对应的符合所述目标乐谱的目标音频，且所述目标音频与所述时长序列匹配。 2.根据权利要求1所述的方法，其特征在于，所述时长预测模型用于：预测所述音素序列对应的时长概率分布；按照所述时长概率分布进行随机采样，以确定所述音素序列中每个音素对应的时长。 3.根据权利要求1所述的方法，其特征在于，所述语音合成模型用于：根据所述音素序列确定所述目标文本对应的文本特征序列，所述文本特征序列包括所述音素序列中每个音素对应的文本特征；根据所述文本特征序列、所述音高序列和所述时长序列，生成所述目标音频。 4.根据权利要求1-3中任一项所述的方法，其特征在于，所述语音合成模型和所述时长预测模型是通过如下方式联合训练获得的：获取训练唱本中包括的训练文本、所述训练文本对应的标注数据、总时长和训练乐谱；根据所述标注数据确定所述训练文本对应的训练音素序列和训练时长序列，并根据所述训练乐谱确定训练音高序列，所述训练音高序列包括：所述训练音素序列中每个训练音素对应的音高，所述训练时长序列包括：每个所述训练音素对应的时长；将所述训练音素序列输入所述时长预测模型，并根据所述时长预测模型的输出和所述总时长，训练所述时长预测模型；将所述训练音素序列、所述训练音高序列和所述训练时长序列，输入所述语音合成模型，并根据所述语音合成模型的输出与所述训练文本对应的训练音频，训练所述语音合成模型。 5.根据权利要求4所述的方法，其特征在于，所述根据所述时长预测模型的输出和所述总时长，训练所述时长预测模型，包括：根据所述时长预测模型输出的，所述训练音素序列对应的初始时长概率分布，和每个所述训练音素对应的初始时长，确定所述训练音素序列对应的最大似然损失；根据所述训练音素序列对应的所述最大似然损失、训练总时长和所述总时长，通过拉格朗日算子法，确定预测损失，所述训练总时长为根据每个训练音素对应所述初始时长确定的；以降低所述预测损失为目标，利用反向传播算法更新所述时长预测模型。 6.根据权利要求5所述的方法，其特征在于，所述根据所述语音合成模型的输出与所述训练文本对应的训练音频，训练所述语音合成模型，包括：根据所述语音合成模型输出的初始音频和所述训练音频，确定合成损失；根据所述合成损失和所述预测损失，确定综合损失；以降低所述综合损失为目标，利用反向传播算法更新所述语音合成模型。 7.根据权利要求6所述的方法，其特征在于，所述根据所述语音合成模型的输出与所述训练文本对应的训练音频，训练所述语音合成模型，还包括：在所述初始音频中按照预设规则抽取第一数量个初始音频段，并在所述训练音频中抽取每个所述初始音频段对应的训练音频段，每个所述初始音频段包括所述初始音频中连续的不同数量个音频帧；将每个所述初始音频段输入对应的判别器，以得到所述判别器输出的初始判别结果，并将该初始音频段对应的所述训练音频段输入所述判别器，以得到所述判别器输出的训练判别结果；所述根据所述语音合成模型输出的初始音频和所述训练音频，确定合成损失，包括：根据所述初始音频和所述训练音频，确定第一损失；根据每个所述初始音频段对应的所述初始判别结果和所述训练判别结果，确定第二损失，所述第二损失用于训练所述判别器；根据所述第一损失和所述第二损失确定所述合成损失。 8.一种基于唱本的语音合成装置，其特征在于，所述装置包括：获取模块，用于获取目标唱本中包括的目标文本和所述目标文本对应目标乐谱；提取模块，用于提取所述目标文本对应的音素序列，和所述目标乐谱对应的音高序列，所述音高序列包括：所述音素序列中每个音素对应的音高；预测模块，用于根据所述音素序列，通过预先训练的时长预测模型预测时长序列，所述时长序列包括：所述音素序列中每个音素对应的时长；合成模块，用于根据所述音素序列、所述音高序列和所述时长序列，通过预先训练的语音合成模型合成所述目标文本对应的符合所述目标乐谱的目标音频，且所述目标音频与所述时长序列匹配。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。

专利专题