一种语音合成方法、系统及装置

引用

摘要：

本发明公开了一种语音合成方法、系统及装置，其中所述方法包括：获取包含混合数据集，并获取混合文本；根据混合文本获取发音编码，根据混合文本中包含的语言种类确定语言编码；将混合数据集中的说话人进行编号，获取指定说话人编号并根据指定说话人编号确定说话人编码；根据所述发音编码、所述语言编码以及所述说话人编码，解码还原指定说话人主语言和其他语言混合的语音信息。本申请实施例能够在指定说话人提供一种语言语音数据时，就能合成指定说话人其他语言的语音。本申请可广泛应用于语音处理技术领域。

专利类型：发明专利

申请/专利号：CN202011373946.4

申请日期：2020-11-30

公开/公告号：CN112530401A

公开/公告日：2021-03-19

主分类号：G10L13/02(2013.01)

申请/专利权人:清华珠三角研究院

发明/设计人:叶俊杰;王伦基;胡玉针;李权;成秋喜;李嘉雄;朱杰;高翠;韩蓝青

主申请人地址:510530 广东省广州市黄埔区香雪八路98号香雪国际公寓F栋

专利代理机构:广州嘉权专利商标事务所有限公司

代理人:常柯阳

国别省市代码:广东;44

权利要求：

1.一种语音合成方法，其特征在于，包括：获取混合数据集，所述混合数据集包括多个说话人及多种语言的语音样本；将所述混合数据集的每个说话人进行编号；根据所述混合数据集获取混合文本；获取所述混合文本的发音编码；根据所述混合文本的语言种类，确定语言编码；根据获取到的指定说话人编号，确定说话人编码；根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，所述指定语音信息为指定说话人的主语言和其他语言混合的语音信息。 2.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息，具体为：将所述发音编码、所述语言编码以及所述说话人编码进行拼接，得到拼接结果，并根据所述拼接结果解码，确定指定语音信息；或者，获取所述混合文本的语言种类数量；对所述发音编码进行编码拓展，得到若干所述发音编码，所述发音编码的数量与所述语言种类数量一致；根据所述语言编码，以及层数与所述发音编码数量一致的全连接层，控制若干所述发音编码与所述说话人编码进行拼接，得到所述拼接结果，并将所述拼接结果解码，确定指定语音信息。 3.根据权利要求1所述的语音合成方法，其特征在于，所述获取所述混合文本的发音编码，包括：对所述混合文本进行分句处理，并进行标点符号转换；对所述混合文本进行分词处理，并在所述混合文本中的任意相邻两个词语之间添加分隔符；将所述混合文本中的缩写词语转换为完整词语；将所述混合文本中的字符转换成与字符列表相应的小写字母或者大写字母；将所述混合文本中的数字转换成以所述主语言表达的形式；根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列；将所述混合序列输入字符嵌入网络、若干层全连接层、若干个1维卷积神经网络以及若干层循环神经网络，得到所述发音编码。 4.根据权利要求3所述的语音合成方法，其特征在于，所述在所述混合文本中的任意相邻两个词语之间添加分隔符，包括：在所述混合文本中的任意相邻两个词语之间添加不同分隔符；其中，分隔符种类表征所述混合文本的语言种类；或者，在所述混合文本中的任意相邻两个词语之间添加相同的分隔符；根据所述分词处理后的混合文本以及所述相同的分隔符，获得配对信息；其中，所述配对信息表征所述混合文本的语言种类；向所述混合文本中加入所述配对信息。 5.根据权利要求3所述的语音合成方法，其特征在于，所述根据混合语言发音规则，确定所述混合文本的发音，得到所述混合文本和所述混合文本发音的混合序列，还包括：获取一个随机数；所述随机数的数值范围为0到1；当所述随机数大于预设的概率阈值，则将当前单词以指定形式进行发音标注，并输入所述混合序列。 6.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：根据所述混合数据集获取声音频谱；利用多层2维卷积神经网络和多层循环神经网络，对所述声音频谱进行残差编码，得到风格编码；根据所述发音编码、所述语言编码、所述说话人编码以及所述风格编码，确定指定语音信息。 7.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：将所述发音编码输入梯度逆转层以及全连接层进行关于说话人分类的对抗训练，并提取与说话人信息无关的发音编码。 8.根据权利要求1所述的语音合成方法，其特征在于，所述方法还包括：构建语音合成模型，所述语音合成模型包括：基于注意力机制的发音字符与语言编码器、基于注意力机制-解码模型的说话人风格编码器、基于注意力机制-解码模型的解码器和声码器；所述发音字符与语言编码器包含语言嵌入网络、字符嵌入网络、多层全连接和1维卷积神经网络以及多层循环神经网络，所述发音字符与语言编码器用于根据所述混合文本确定所述发音编码，并根据所述混合文本的语言种类确定所述语言编码；所述说话人风格编码器包含说话人嵌入网络，所述说话人风格编码器用于根据获取到的指定说话人编号，确定所述说话人编码；所述解码器用于将所述发音编码、所述语言编码和所述说话人编码的拼接结果进行解码，或者对所述发音编码和所述说话人编码的拼接结果进行编码，获得所述声音频谱；所述声码器用于根据所述声音频谱获取所述指定语音信息。 9.一种语音合成系统，其特征在于，包括：获取模块，用于获取混合数据集以及所述混合文本；编码模块，用于确定发音编码、语言编码及说话人编码；语音信息生成模块，用于根据所述发音编码、所述语言编码以及所述说话人编码，确定指定语音信息。 10.一种装置，其特征在于，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8中任一项所述的语音合成方法。

专利专题