可控制语音速度的语音合成方法、装置、设备及存储介质

引用

摘要：

本申请涉及人工智能技术领域，揭示了一种可控制语音速度的语音合成方法、装置、设备及存储介质，其中方法包括：根据待参考的梅尔频谱数据得到待参考的语音风格特征数据；对待合成语音的文本序列和预设语音速度进行状态向量转换得到待合成的状态向量数据；对待参考的语音风格特征数据和待合成的状态向量数据进行线性投影处理得到线性投影后的向量数据；根据待合成语音的文本序列和线性投影后的向量数据进行字符对齐处理得到字符对齐后的向量数据；对字符对齐后的向量数据进行梅尔频谱解码得到目标梅尔频谱数据；对目标梅尔频谱数据进行语音转换得到目标语音数据。实现将语音速度和语音的其他属性解耦合，改变语音速度时不会改变语音的其他属性。

专利类型：发明专利

申请/专利号：CN202011461280.8

申请日期：2020-12-11

公开/公告号：CN112382272A

公开/公告日：2021-02-19

主分类号：G10L13/02(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:孙奥兰;王健宗;程宁

主申请人地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:深圳市明日今典知识产权代理事务所(普通合伙)

代理人:王杰辉%曹勇

国别省市代码:广东;44

权利要求：

1.一种可控制语音速度的语音合成方法，其特征在于，所述方法包括：获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。 2.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据的步骤之前，包括：获取参考样本对，所述参考样本对包括：参考样本文本序列、参考样本梅尔频谱数据；根据所述参考样本文本序列进行字符数量计算，得到所述参考样本对对应的字符数量；根据所述参考样本梅尔频谱数据进行语音总时长计算，得到所述参考样本对对应的语音总时长；将所述参考样本对对应的字符数量除以所述参考样本对对应的语音总时长，得到所述预设语音速度。 3.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据的步骤，包括：采用GST编码器对所述待参考的梅尔频谱数据进行语音风格特征提取，得到所述待参考的语音风格特征数据。 4.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据的步骤，包括：对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据；采用文本编码器对所述嵌入拼接后的向量数据进行状态向量转换，得到所述待合成的状态向量数据。 5.根据权利要求4所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待合成语音的文本序列和所述预设语音速度进行嵌入拼接处理，得到嵌入拼接后的向量数据的步骤，包括：对所述待合成语音的文本序列进行字符数量计算，得到所述待合成语音的文本序列对应的目标字符数量；采用所述目标字符数量将所述预设语音速度进行嵌入向量扩充，得到所述预设语音速度对应的嵌入向量数据；对所述待合成语音的文本序列进行编码转换，得到所述待合成语音的文本序列对应的编码向量；将所述预设语音速度对应的嵌入向量数据和所述待合成语音的文本序列对应的编码向量进行依次拼接，得到所述嵌入拼接后的向量数据。 6.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据的步骤包括：将所述待参考的语音风格特征数据和所述待合成的状态向量数据进行拼接，得到待投影处理的向量数据；采用全连接层对所述待投影处理的向量数据进行编码及维度变换，得到所述线性投影后的向量数据。 7.根据权利要求1所述的可控制语音速度的语音合成方法，其特征在于，所述根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据的步骤，包括：采用注意力机制基于所述待合成语音的文本序列对所述线性投影后的向量数据进行字符对齐处理，得到所述字符对齐后的向量数据。 8.一种可控制语音速度的语音合成装置，其特征在于，所述装置包括：数据获取模块，用于获取待合成语音的文本序列、预设语音速度和待参考的梅尔频谱数据；语音风格特征提取模块，用于对所述待参考的梅尔频谱数据进行语音风格特征提取，得到待参考的语音风格特征数据；状态向量转换模块，用于对所述待合成语音的文本序列和所述预设语音速度进行状态向量转换，得到待合成的状态向量数据；线性投影处理模块，用于对所述待参考的语音风格特征数据和所述待合成的状态向量数据进行线性投影处理，得到线性投影后的向量数据；字符对齐处理模块，用于根据所述待合成语音的文本序列和所述线性投影后的向量数据进行字符对齐处理，得到字符对齐后的向量数据；梅尔频谱解码模块，用于对所述字符对齐后的向量数据进行梅尔频谱解码，得到目标梅尔频谱数据；语音转换模块，用于对所述目标梅尔频谱数据进行语音转换，得到目标语音数据。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

专利专题