情感语音的合成方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能技术领域，公开了情感语音的合成方法、装置、设备及存储介质，用于解决合成语音平淡、缺乏情感的问题，增加合成语音的多样性。情感语音的合成方法包括：获取待识别语音数据和对应的文本数据；将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。此外，本发明还涉及区块链技术，待识别语音数据和文本数据可存储于区块链中。

专利类型：发明专利

申请/专利号：CN202011432589.4

申请日期：2020-12-10

公开/公告号：CN112562700A

公开/公告日：2021-03-26

主分类号：G10L19/16(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:梁爽;陈闽川;马骏;王少军

主申请人地址:518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:北京市京大律师事务所

代理人:姚维

国别省市代码:广东;44

权利要求：

1.一种情感语音的合成方法，其特征在于，所述情感语音的合成方法包括：获取待识别语音数据和对应的文本数据；将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。 2.根据权利要求1所述的情感语音的合成方法，其特征在于，所述将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征包括：将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征；根据所述梅尔谱特征和预置的位置转换公式，生成位置编码；将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征。 3.根据权利要求2所述的情感语音的合成方法，其特征在于，所述将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征包括：对所述待识别语音数据进行加窗处理，生成加窗后的语音数据；对所述加窗后的语音数据进行短时傅里叶变换，生成傅里叶变换后的语音数据；采用梅尔滤波器组对所述傅里叶变换后的语音数据进行处理，生成梅尔谱特征。 4.根据权利要求2所述的情感语音的合成方法，其特征在于，所述根据所述梅尔谱特征和预置的位置转换公式，生成位置编码包括：读取梅尔谱特征的长度，并读取梅尔谱特征的位置；基于所述梅尔谱特征的长度和所述梅尔谱特征的位置，生成位置输入值；将所述位置输入向量输入预置的位置转换公式，生成位置编码。 5.根据权利要求2所述的情感语音的合成方法，其特征在于，所述将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征包括：将所述梅尔谱特征和所述的位置编码输入所述情感识别网络的多头自注意力层中，结合残差连接，生成初始情感特征向量；将所述初始情感特征向量输入所述情感识别网络的前向传播层中进行卷积，生成情感嵌入特征。 6.根据权利要求1所述的情感语音的合成方法，其特征在于，所述将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据包括：在预先训练好的语音合成网络中，将所述文本数据转换为文本嵌入特征；按照时刻顺序，将所述文本嵌入特征和所述情感嵌入特征进行拼接，生成目标梅尔谱数据。 7.根据权利要求1-6中任意一项所述的情感语音的合成方法，其特征在于，在所述获取待识别语音数据和对应的文本数据之前，所述情感语音的合成方法包括：获取情感语音训练数据、情感标签数据和文本训练数据；采用所述情感语音训练数据和所述情感标签数据，结合层正则化机制进行模型训练，生成预先训练好的情感识别网络，并采用所述情感语音训练数据和所述文本训练数据进行模型训练，生成预先训练好的语音合成网络。 8.一种情感语音的合成装置，其特征在于，所述情感语音的合成装置包括：获取模块，用于获取待识别语音数据和对应的文本数据；嵌入特征生成模块，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；梅尔谱数据生成模块，用于将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；语音转换模块，用于采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。 9.一种情感语音的合成设备，其特征在于，所述情感语音的合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述情感语音的合成设备执行如权利要求1-7中任意一项所述的情感语音的合成方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述情感语音的合成方法。

专利专题