一种语音合成方法及装置
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种语音合成方法及装置

引用
本发明提供一种语音合成方法及装置,该方法包括:获取待处理文本,以及获取目标语音合成参数,其中,所述目标语音合成参数包括发音对象和发音参数中的至少一项;对所述待处理文本进行拆分,得到至少两段文本;通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音。本发明实施例通过获取待处理文本和目标语音合成参数,并对待处理文本进行拆分,以及通过与目标语音合成参数对应的语音合成模型,对拆分的多段文本进行语音合成,从而不仅能够合成具备目标语音合成参数的合成语音,还能保证语音合成的实效性。

发明专利

CN202010872280.0

2020-08-26

CN111986647A

2020-11-24

G10L13/02(2013.01)

北京声智科技有限公司

洪林;苏少炜;常乐

100094 北京市海淀区北清路81号院一区1号楼6层601

北京银龙知识产权代理有限公司

许静%黄灿

北京;11

1.一种语音合成方法,其特征在于,包括: 获取待处理文本,以及获取目标语音合成参数,其中,所述目标语音合成参数包括发音对象和发音参数中的至少一项; 对所述待处理文本进行拆分,得到至少两段文本; 通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音。 2.根据权利要求1所述的方法,其特征在于,所述获取目标语音合成参数,包括: 获取从至少两个语音合成参数中选择的目标语音合成参数。 3.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行拆分,得到至少两段文本之后,所述通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成之前,所述方法还包括: 判断所述至少两段文本是否符合语音合成标记语言SSML规范; 在所述至少两段文本符合SSML规范的情况下,按照所述目标语音合成参数对应的SSML文本格式,对所述至少两段文本的SSML文本格式进行比对或调整; 所述通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,包括如下至少一项: 在所述至少两段文本符合SSML规范的情况下,通过与所述目标语音合成参数对应的语音合成模型,对比对或调整后的所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音; 在所述至少两段文本不符合SSML规范的情况下,通过所述语音合成模型对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音。 4.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行拆分,得到至少两段文本,包括: 依据所述待处理文本中标记的断句标点、语音合成参数,和/或所述待处理文本的语句长度,对所述待处理文本进行分段处理,得到至少两段文本。 5.根据权利要求1所述的方法,其特征在于,所述目标语音合成参数还包括音频格式参数,所述音频格式参数用于指示合成目标音频格式的语音; 所述通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音之后,所述方法还包括: 在所述至少两段文本中每段文本对应的合成语音的音频格式与所述目标音频格式不一致的情况下,分别对所述至少两段文本中每段文本对应的合成语音进行音频格式转换,得到音频格式为所述目标音频格式的合成语音。 6.根据权利要求1至5中任一项所述的方法,其特征在于,所述通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音,包括: 将所述至少两段文本和所述目标语音合成参数发送至用于提供语音合成服务的服务端,以使所述服务端调用与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音; 接收所述服务端返回的所述至少两段文本中每段文本对应的合成语音。 7.一种语音合成装置,其特征在于,包括: 获取模块,用于获取待处理文本,以及获取目标语音合成参数,其中,所述目标语音合成参数包括发音对象和发音参数中的至少一项; 第一文本处理模块,用于对所述待处理文本进行拆分,得到至少两段文本; 语音合成模块,用于通过与所述目标语音合成参数对应的语音合成模型,对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音。 8.根据权利要求7所述的语音合成装置,其特征在于,所述语音合成装置还包括: 判断模块,用于判断所述至少两段文本是否符合语音合成标记语言SSML规范; 第二文本处理模块,用于在所述至少两段文本符合SSML规范的情况下,按照所述目标语音合成参数对应的SSML文本格式,对所述至少两段文本的SSML文本格式进行比对或调整; 所述语音合成模块包括如下至少一项: 第一语音合成单元,用于在所述至少两段文本符合SSML规范的情况下,通过与所述目标语音合成参数对应的语音合成模型,对比对调整后的所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音; 第二语音合成单元,用于在所述至少两段文本不符合SSML规范的情况下,通过所述语音合成模型对所述至少两段文本进行语音合成,得到所述至少两段文本中每段文本对应的合成语音。 9.一种语音合成装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。 10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法中的步骤。
相关文献
评论
法律状态详情>>
2020-11-24公开
2020-11-24公开
相关作者
相关机构