控制语音合成发音的方法及装置

引用

摘要：

本发明公开了一种控制语音合成发音的方法，包括：创建发音字典；对待合成文本进行规则化处理、韵律分析并转换为拼音标记；读取发音字典并对拼音标记进行替换处理，并将拼音标记转换为音素；使用语音合成模型将音素转换为声学特征；使用声码器将声学特征转化为音频；本发明解决了语音合成系统多音字发音错误以及用户口音自适应的问题。

专利类型：发明专利

申请/专利号：CN202010873463.4

申请日期：2020-08-26

公开/公告号：CN111968619A

公开/公告日：2020-11-20

主分类号：G10L13/047(2013.01)

申请/专利权人:四川长虹电器股份有限公司

发明/设计人:王昆;朱海;周琳珉;展华益

主申请人地址:621000 四川省绵阳市高新区绵兴东路35号

专利代理机构:四川省成都市天策商标专利事务所

代理人:陈艺文

国别省市代码:四川;51

权利要求：

1.一种控制语音合成发音的方法，其特征在于，包括以下步骤： S1、创建发音字典； S2、对待合成文本进行规则化处理、韵律分析并转换为拼音标记； S3、读取发音字典并对拼音标记进行替换处理，并将拼音标记转换为音素； S4、使用语音合成模型将音素转换为声学特征； S5、使用声码器将声学特征转化为音频。 2.根据权利要求1所述的控制语音合成发音的方法，其特征在于，所述步骤S1具体如下：发音字典的key值为中文词语，value值为拼音，用户输入之前，发音字典初始化为空；用户输入时，对输入的key值、value值进行检查，保证为合法输入；若发音字典中key值不存在，则将用户输入的key值、value值加入到发音字典；若key值存在于发音字典，则对该key值对应的value值进行更新；且发音字典支持用户的查看以及修改删除。 3.根据权利要求2所述的控制语音合成发音的方法，其特征在于，所述步骤S2具体如下：对待合成文本进行规则化处理，筛选出非法字符，对合法输入进行分词、词性标注，并将提取的综合语言学特征输入到韵律预测模型，获得停顿级别标注，将中文汉字转换为拼音标记。 4.根据权利要求3所述的控制语音合成发音的方法，其特征在于，所述步骤S3具体如下：读取发音字典时，若发音字典为空，则不做处理；若发音字典不为空，则读取发音字典，通过发音字典的key值对待合成文本进行词语检测，若待合成文本中含有该key值，则用该key值对应的value值替换步骤S2中对应待合成文本在该key值上的拼音标记，其余的保持不变。 5.根据权利要求1-4任一项所述的控制语音合成发音的方法，其特征在于，所述步骤S4中，所述的语音合成模型为Tacotron或Tacotron2或Transformer TTS。 6.根据权利要求5所述的控制语音合成发音的方法，其特征在于，所述步骤S5中，所述声码器的模型采用的网络结构为WavNET或WavRNN或MelGAN。 7.根据权利要求1或6所述的控制语音合成发音的方法，其特征在于，在步骤S4和步骤S5中，所述声学特征为梅尔频谱特征或线性频谱特征或频谱包络相关的其他声学特征。 8.一种控制语音合成发音的装置，其特征在于，包括：发音字典构建模块，用于保存以及读取用户输入的中文词语及其发音；文本处理模块，用于对待合成文本进行规则化处理、韵律分析，并转换为拼音标记；替换处理模块，用于读取发音字典并对拼音标记进行替换处理，并将拼音标记转换为音素；合成模块，用于将输入的经处理的待合成文本转换为声学特征；声码器模块，用于将输入的声学特征转换为音频。

专利专题