一种TTS的方法及系统

引用

摘要：

本发明公开了一种TTS的方法，解决了合成音频拟人声性较差的问题，其技术方案要点是采用tacotron模型将文本信息预处理后进行编码，产生中间状态，利用前馈注意力机制将编码产生的中间状态结合到一起，前馈注意力机制可以捕捉长序列相依过程，使得输出音频更自然，且前馈注意力机制对长句子拟合比较好，没有尾部弱化现象，比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet，经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。

专利类型：发明专利

申请/专利号：CN201910456474.X

申请日期：2019-05-29

公开/公告号：CN109979429A

公开/公告日：2019-07-05

主分类号：G10L13/04(2013.01)

申请/专利权人:南京硅基智能科技有限公司

发明/设计人:司马华鹏;毛志强

主申请人地址:210012 江苏省南京市雨花台区软件大道66号-1

专利代理机构:江苏舜点律师事务所

代理人:孙丹

权利要求：

1.一种TTS的方法，其特征在于，包括：提取文本信息，对所述文本信息预处理后输入到tacotron模型；所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出；所述序列输入到wavenet声码器；所述wavenet声码器对所述序列进行特征建模，并生成对应的音频；所述tacotron模型为频谱预测网络，包括编码器、解码器和注意力机制，所述注意力机制为前馈注意力机制。 2.如权利要求1所述的TTS的方法，其特征在于，所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。 3.如权利要求1所述的TTS的方法，其特征在于，所述wavenet声码器为wavenet模型，所述wavenet模型使用带洞卷积算法。 4.如权利要求3所述的TTS的方法，其特征在于，所述wavenet模型为并行化模型，包括wavenet和并行wavenet，所述wavenet和并行wavenet都包含wavenet块，且所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。 5.如权利要求4所述的TTS的方法，其特征在于，所述wavenet包含两个wavenet块，所述并行wavenet包含六个wavenet块。 6.如权利要求5所述的TTS的方法，其特征在于，所述wavenet为教师网络，所述并行wavenet为所述wavenet的学生网络。 7.如权利要求6所述的TTS的方法，其特征在于，所述并行wavenet采用IAF即可逆自回归流进行学习，所述IAF与wavenet模型的wavenet块层数相同。 8.如权利要求7所述的TTS的方法，其特征在于，所述并行wavenet学习的损失函数为能量谱损失函数，所述能量谱损失函数与所述教师网络的互信息熵结合训练所述并行wavenet。 9.一种TTS的系统，其特征在于，包括tacotron模型和wavenet声码器，所述tacotron模型包括编码器、解码器和注意力机制，所述注意力机制为前馈注意力机制。 10.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。

专利专题