一种基于小语料库的方言合成方法及系统

引用

摘要：

本发明提供了一种基于小语料库的方言合成方法及系统，所述方法执行以下步骤：步骤1：基于普通话语料生成基础模型；步骤2：获取方言训练语料；步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。根据本发明的方法，使用迁移学习的思想，在已有的普通话的基础模型的基础上训练方言模型，这样可以在没有足够方言训练语料的情况下，达到高似然度的方言语音合成效果。

专利类型：发明专利

申请/专利号：CN202010825021.2

申请日期：2020-08-17

公开/公告号：CN111986646A

公开/公告日：2020-11-24

主分类号：G10L13/02(2013.01)

申请/专利权人:云知声智能科技股份有限公司

发明/设计人:石强

主申请人地址:100000 北京市海淀区西三旗建材城内1幢一层101号

专利代理机构:北京冠和权律师事务所

代理人:安琪

国别省市代码:北京;11

权利要求：

1.一种基于小语料库的方言合成方法，其特征在于，所述方法执行以下步骤：步骤1：基于普通话语料生成基础模型；步骤2：获取方言训练语料；步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。 2.如权利要求1所述的方法，其特征在于，在所述步骤1中，所述基于普通话语料生成基础模型执行以下步骤：步骤S11：使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型；步骤S12：将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。 3.如权利要求2所述的方法，其特征在于，在所述步骤2中，所述方言训练语料包括：方言语音音频和/或方言拼音序列。 4.如权利要求3所述的方法，其特征在于，所述步骤2：获取方言训练语料执行以下步骤：步骤S21：选择母语为目标方言的声优进行录制，得到所述方言语音音频；步骤S22：使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列。 5.如权利要求3所述的方法，其特征在于，在所述步骤S22中，所述自建方言词典是通过以下步骤构建的：步骤S221：根据语言学信息对普通话的声韵集合进行扩展；步骤S222：使用五度法对普通话的声调种类进行扩展。 6.如权利要求3所述的方法，其特征在于，所述步骤3：基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型执行以下步骤：步骤S31：将所述方言拼音序列作为Tacotron2模型的输入，将梅尔频谱序列作为所述Tacotron2模型的输出；步骤S32：将所述梅尔频谱序列作为所述Wavenet声码器的输入，所述Wavenet声码器对所述梅尔频谱序列进行特征建模，输出对应的音频。 7.一种基于小语料库的方言合成系统，其特征在于，包括：基础模型生成模块，用于基于普通话语料生成基础模型；方言训练语料获取模块，用于获取方言训练语料：方言模型训练模块，用于基于所述方言训练语料对所述基础模型进行训练，得到方言语音合成模型。 8.如权利要求7所述的系统，其特征在于，所述基础模型生成模块具体用于：使用大量的普通话语料，训练基于Tacotron2模型和Wavenet生码器的端到端语音合成模型，将训练好的基于Tacotron2模型和Wavenet生码器的端到端语音合成模型作为所述基础模型。 9.如权利要求7所述的系统，其特征在于，所述方言训练语料获取模块所获取的所述方言训练语料包括：方言语音音频和/或方言拼音序列。 10.如权利要求9所述的系统，其特征在于，所述方言训练语料获取模块包括：方言语音音频获取单元，用于选择母语为目标方言的声优进行录制，得到所述方言语音音频；方言拼音序列获取单元，用于使用自建方言词典对录制所述方言语音音频时所使用的音译文本进行字音转换，得到所述方言拼音序列。

专利专题