一种语音合成方法及装置

引用

摘要：

本发明提供一种语音合成方法及装置，该方法包括：获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；对所述待处理文本进行拆分，得到至少两段文本；通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。本发明实施例通过获取待处理文本和目标语音合成参数，并对待处理文本进行拆分，以及通过与目标语音合成参数对应的语音合成模型，对拆分的多段文本进行语音合成，从而不仅能够合成具备目标语音合成参数的合成语音，还能保证语音合成的实效性。

专利类型：发明专利

申请/专利号：CN202010872280.0

申请日期：2020-08-26

公开/公告号：CN111986647A

公开/公告日：2020-11-24

主分类号：G10L13/02(2013.01)

申请/专利权人:北京声智科技有限公司

发明/设计人:洪林;苏少炜;常乐

主申请人地址:100094 北京市海淀区北清路81号院一区1号楼6层601

专利代理机构:北京银龙知识产权代理有限公司

代理人:许静%黄灿

国别省市代码:北京;11

权利要求：

1.一种语音合成方法，其特征在于，包括：获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；对所述待处理文本进行拆分，得到至少两段文本；通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。 2.根据权利要求1所述的方法，其特征在于，所述获取目标语音合成参数，包括：获取从至少两个语音合成参数中选择的目标语音合成参数。 3.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行拆分，得到至少两段文本之后，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成之前，所述方法还包括：判断所述至少两段文本是否符合语音合成标记语言SSML规范；在所述至少两段文本符合SSML规范的情况下，按照所述目标语音合成参数对应的SSML文本格式，对所述至少两段文本的SSML文本格式进行比对或调整；所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，包括如下至少一项：在所述至少两段文本符合SSML规范的情况下，通过与所述目标语音合成参数对应的语音合成模型，对比对或调整后的所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；在所述至少两段文本不符合SSML规范的情况下，通过所述语音合成模型对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。 4.根据权利要求1所述的方法，其特征在于，所述对所述待处理文本进行拆分，得到至少两段文本，包括：依据所述待处理文本中标记的断句标点、语音合成参数，和/或所述待处理文本的语句长度，对所述待处理文本进行分段处理，得到至少两段文本。 5.根据权利要求1所述的方法，其特征在于，所述目标语音合成参数还包括音频格式参数，所述音频格式参数用于指示合成目标音频格式的语音；所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音之后，所述方法还包括：在所述至少两段文本中每段文本对应的合成语音的音频格式与所述目标音频格式不一致的情况下，分别对所述至少两段文本中每段文本对应的合成语音进行音频格式转换，得到音频格式为所述目标音频格式的合成语音。 6.根据权利要求1至5中任一项所述的方法，其特征在于，所述通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音，包括：将所述至少两段文本和所述目标语音合成参数发送至用于提供语音合成服务的服务端，以使所述服务端调用与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；接收所述服务端返回的所述至少两段文本中每段文本对应的合成语音。 7.一种语音合成装置，其特征在于，包括：获取模块，用于获取待处理文本，以及获取目标语音合成参数，其中，所述目标语音合成参数包括发音对象和发音参数中的至少一项；第一文本处理模块，用于对所述待处理文本进行拆分，得到至少两段文本；语音合成模块，用于通过与所述目标语音合成参数对应的语音合成模型，对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。 8.根据权利要求7所述的语音合成装置，其特征在于，所述语音合成装置还包括：判断模块，用于判断所述至少两段文本是否符合语音合成标记语言SSML规范；第二文本处理模块，用于在所述至少两段文本符合SSML规范的情况下，按照所述目标语音合成参数对应的SSML文本格式，对所述至少两段文本的SSML文本格式进行比对或调整；所述语音合成模块包括如下至少一项：第一语音合成单元，用于在所述至少两段文本符合SSML规范的情况下，通过与所述目标语音合成参数对应的语音合成模型，对比对调整后的所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音；第二语音合成单元，用于在所述至少两段文本不符合SSML规范的情况下，通过所述语音合成模型对所述至少两段文本进行语音合成，得到所述至少两段文本中每段文本对应的合成语音。 9.一种语音合成装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。

专利专题