语音合成的处理方法、装置、设备及存储介质

引用

摘要：

本公开实施例提供一种语音合成的处理方法、装置、设备及存储介质，该方法包括：获取目标说话人的原语音数据；根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；基于所述目标语音转换模型，为用户提供语音播报服务。实现了基于少量语音数据便可简单快速地获得需要的语音转换模型，解决了现有技术若只有少量的目标说话人的语音数据，获得的语音转换模型准确性低等缺陷。

专利类型：发明专利

申请/专利号：CN202010981636.4

申请日期：2020-09-17

公开/公告号：CN112071301A

公开/公告日：2020-12-11

主分类号：G10L13/04(2013.01)

申请/专利权人:北京嘀嘀无限科技发展有限公司

发明/设计人:赵帅江;赵茜;罗讷;文成;郭庭炜

主申请人地址:100193 北京市海淀区东北旺西路8号院34号楼

专利代理机构:北京同立钧成知识产权代理有限公司

代理人:李洪娟%臧建明

国别省市代码:北京;11

权利要求：

1.一种语音合成的处理方法，其特征在于，包括：获取目标说话人的原语音数据；根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；基于所述目标语音转换模型，为用户提供语音播报服务。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取包括所述目标说话人的语音的第一语音数据；基于所述第一语音数据及预设认证模型，获得所述目标说话人的新的原语音数据；根据所述新的原语音数据提取所述目标说话人的新的第一语音特征，并获取所述第一源说话人与所述新的原语音数据对应的新的第二语音特征；基于所述新的第一语音特征和所述新的第二语音特征，对所述目标语音转换模型进行优化，获得优化的语音转换模型作为所述目标语音转换模型。 3.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音数据及预设认证模型，获得所述目标说话人的新的原语音数据，包括：对所述第一语音数据进行切分，获得语音片段；提取各语音片段的FBank特征；根据各语音片段的FBank特征，采用训练好的声纹模型，获得各语音片段对应的x-vector声纹特征；根据各语音片段对应的x-vector声纹特征，采用概率线性判别分析算法确定属于所述目标说话人的语音片段，作为所述目标说话人的新的原语音数据。 4.根据权利要求1所述的方法，其特征在于，在所述基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型之前，所述方法还包括：基于动态时间归整算法将所述第一语音特征和所述第二语音特征进行语音对齐。 5.根据权利要求1所述的方法，其特征在于，所述根据所述原语音数据为所述目标说话人匹配相似的第一源说话人，包括：将所述原语音数据转换成对应的第一文本数据；根据所述第一文本数据，获取预设的各源说话人的合成语音；根据所述原语音数据及各源说话人的合成语音，确定与所述目标说话人相似的第一源说话人。 6.根据权利要求5所述的方法，其特征在于，所述根据所述原语音数据为所述目标说话人匹配相似的第一源说话人，还包括：基于所述原语音数据，确定所述目标说话人的性别；根据所述第一文本数据，获取预设的各源说话人的合成语音，包括：从预设的各源说话人中选择与所述目标说话人性别相同的第二源说话人；根据所述第一文本数据，获取各所述第二源说话人的合成语音；所述根据所述原语音数据及各源说话人的合成语音，确定与所述目标说话人相似的第一源说话人，包括：计算各第二源说话人的合成语音与所述目标说话人的原语音数据的梅尔谱失真度；将梅尔谱失真度最小的第二源说话人作为所述第一源说话人。 7.根据权利要求1所述的方法，其特征在于，所述目标语音转换模型为基于高斯混合模型训练获得的语音转换模型。 8.根据权利要求1所述的方法，其特征在于，获取所述第一源说话人与所述原语音数据对应的第二语音特征，包括：将所述原语音数据转换为对应的第二文本数据；根据所述第二文本数据，合成所述第一源说话人的第二语音数据；基于所述第二语音数据，获取所述第二语音特征。 9.根据权利要求1所述的方法，其特征在于，在获取目标说话人的原语音数据之后，所述方法还包括：对所述原语音数据进行预处理，获得预处理后的语音数据。 10.根据权利要求1-9任一项所述的方法，其特征在于，所述基于所述目标语音转换模型，为用户提供语音播报服务，包括：基于所述目标语音转换模型，将所述第一源说话人播报语音转换为所述目标说话人播报语音；将所述目标说话人播报语音发送给所述用户的终端，以使所述终端进行播报。 11.根据权利要求1-9任一项所述的方法，其特征在于，所述基于所述目标语音转换模型，为用户提供语音播报服务，包括：将所述目标语音转换模型发送给所述用户的终端，以使所述终端基于所述目标语音转换模型，将所述第一源说话人播报语音转换为所述目标说话人播报语音。 12.根据权利要求11所述的方法，其特征在于，在将所述目标语音转换模型发送给所述用户的终端之前，所述方法还包括：接收所述终端发送的转换模型下载请求；所述将所述目标语音转换模型发送给所述用户的终端，包括：根据所述转换模型下载请求，将所述目标语音转换模型发送给所述终端。 13.一种语音合成的处理方法，其特征在于，包括：获取用户的第一操作；根据所述第一操作向服务器发送模型定制请求，以使所述服务器根据所述模型定制请求获得目标语音转换模型；接收所述服务器发送的所述目标语音转换模型；所述目标语音转换模型是基于第一语音特征和第二语音特征，对预设语音转换模型进行优化训练获得的，所述第一语言特征是根据目标说话人的原语音数据提取获得的，所述第二语音特征是第一源说话人与所述原语音数据对应的语音特征，所述第一源说话人是根据所述原语音数据为所述目标说话人匹配的相似的源说话人；基于所述目标语音转换模型进行语音播报。 14.根据权利要求13所述的方法，其特征在于，在接收所述服务器发送的所述目标语音转换模型之前，所述方法还包括：接收服务器发送的模型完成通知消息；获取用户的下载操作；根据所述下载操作向所述服务器发送转换模型下载请求。 15.根据权利要求13所述的方法，其特征在于，所述方法还包括：向所述服务器发送播报请求，以使所述服务器根据所述播报请求，将第一源说话人播报语音转换为目标说话人播报语音；接收所述服务器发送的目标说话人播报语音，并进行播报。 16.一种语音合成的处理装置，其特征在于，包括：第一获取模块，用于获取目标说话人的原语音数据；匹配模块，用于根据所述原语音数据为所述目标说话人匹配相似的第一源说话人；提取模块，用于根据所述原语音数据，提取所述目标说话人的第一语音特征，并获取所述第一源说话人与所述原语音数据对应的第二语音特征；训练模块，用于基于所述第一语音特征和所述第二语音特征，对预设语音转换模型进行优化训练，获得目标语音转换模型；处理模块，用于基于所述目标语音转换模型，为用户提供语音播报服务。 17.一种语音合成的处理装置，其特征在于，包括：第二获取模块，用于获取用户的第一操作；发送模块，用于根据所述第一操作向服务器发送模型定制请求，以使所述服务器根据所述模型定制请求获得目标语音转换模型；接收模块，用于接收所述服务器发送的所述目标语音转换模型；所述目标语音转换模型是基于第一语音特征和第二语音特征，对预设语音转换模型进行优化训练获得的，所述第一语言特征是根据目标说话人的原语音数据提取获得的，所述第二语音特征是第一源说话人与所述原语音数据对应的语音特征，所述第一源说话人是根据所述原语音数据为所述目标说话人匹配的相似的源说话人；播报模块，用于基于所述目标语音转换模型进行语音播报。 18.一种电子设备，其特征在于，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-12任一项所述的方法。 19.一种终端，其特征在于，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求13-15任一项所述的方法。 20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-12任一项所述的方法。 21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求13-15任一项所述的方法。

专利专题