一种中文高保真语音合成音色定制方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种中文高保真语音合成音色定制方法

引用
本发明涉及语音合成技术领域,特别是涉及一种中文高保真语音合成音色定制方法,包括S1、单独训练语音合成模型的文本编码器模块,并将文本编码器与BERT的特征空间进行对齐;S2、在具有多个发音人的数据集上训练一个基础语音合成模型;S3、利用动态规划算法进行最优录音语料的选取;S4、用户根据选取的语料录制声音,并构建微调所使用的训练集;S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调;S6、完成音色定制。本发明方案采用动态规划进行最优的语料选取,使用户的录音样本包含更全面的发音信息;本发明通过预训练BERT语言模型使合成出来的语音停顿更加自然,通过引入对抗网络,使训练出的音色更加符合定制角色的特点,实现高保真效果。

发明专利

CN202311389786.6

2023-10-25

CN117351930A

2024-01-05

G10L13/02(2013.01)

小视科技(江苏)股份有限公司

杨帆;孙宇飞;郝强;潘鑫淼;胡建国

210000 江苏省南京市江宁区高新园龙眠大道568号

北京德崇智捷知识产权代理有限公司

王雪

江苏;32

1.一种中文高保真语音合成音色定制方法,其特征在于,包括以下具体步骤: S1、单独训练语音合成模型的文本编码器模块Etext,进行语言特征提取,并将文本编码器提取的语言特征与BERT提取的语言特征这两个特征空间进行对齐; S2、在具有多个发音人的数据集上训练一个基础语音合成模型,即为TTS底模; S3、利用动态规划算法进行最优录音语料的选取; S4、用户根据选取的语料录制声音,并构建微调所使用的训练集; S5、根据所录制的声音及微调训练集对TTS底模的参数进行微调; S6、完成音色定制。 2.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S1中将文本编码器与BERT模型提取的语言特征进行对齐的损失函数为: 3.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S2中还包括以下步骤: S21、将输入文本通过预处理得到音素序列;其中音素序列包括汉语的声母,韵母和音调; S22、通过文本编码器得到文本的语言特征vlang; S23、为每个不同的发音人训练一个音色特征向量vid;并根据该特征向量来生成每个音素的时长和文本的发音特征。 4.根据权利要求3所述的一种中文高保真语音合成音色定制方法,其特征在于,S23还包括以下步骤: S231、将S22中训练好的文本编码器提取的语言特征vlang与音色特征向量进行拼接,得到音素时长特征zd,通过音素时长预测模块来预测每个音素的发音时长; S232、通过与S231相同的方式,得到梅尔频谱特征zm,并采用梅尔频谱变换模块来预测文本对应的梅尔频谱xm; S233、将预测的梅尔频谱再次与音色特征向量vid拼接后,经过声码器G生成可以通过音频软件播放的声波数据y。 5.根据权利要求4所述的一种中文高保真语音合成音色定制方法,其特征在于,通过计算预测的梅尔频谱与真实声音的梅尔频谱之间的差值,得到语音信号的重建损失: 6.根据权利要求5所述的一种中文高保真语音合成音色定制方法,其特征在于,通过MAS单调对齐搜索算法计算音素的发音时长损失: 其中d和分别代表输入文本中每个音素的预测发音时长和通过MAS算法计算得到的发音时长。 7.根据权利要求6所述的一种中文高保真语音合成音色定制方法,其特征在于,S2采用生成对抗网络的思想,引入梅尔频谱的对抗损失: 底模训练的损失函数为以上各项损失之和: 8.根据权利要求2所述的一种中文高保真语音合成音色定制方法,其特征在于,文本编码器采用NLP领域中的Transformer结构,包含六个注意力层和一个全连接投影层,音素时长预测模块采用一个三层的一维卷积和一个全连接投影层,生成器和鉴别器采用HiFi-GAN所提出的多周期鉴别器网络结构。 9.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S3中利用背包算法选择K个句子的最优句子索引,并得到用于微调音色的语料T'={Ti|i∈IdxList}。 10.根据权利要求1所述的一种中文高保真语音合成音色定制方法,其特征在于,S4中用户根据指定的语料进行文字朗读,并在每句话之间停顿1秒以上; 在收到用户录制好的语音样本,根据预先指定的停顿时间将音频切分为若干条较短的样本,并与语料的每句话相对应,够建微调所使用的训练集。
相关文献
评论
法律状态详情>>
相关作者
相关机构