一种基于分布式自然韵律优化本地合成方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于分布式自然韵律优化本地合成方法

引用
一种基于分布式自然韵律优化本地合成效果的方法,用于低码率传输自然语音韵律信息并在本地合成,包括以下步骤:由录音数据或者服务器级别的合成系统,生成合成文本的前端标注信息和语音韵律信息。然后通过网络的方式将信息下载到本地,本地使用这些信息结合后端系统合成。由于使用了更好的前端信息和后端韵律参数,提升了本地合成的韵律,从而提高本地合成效果。同时由于基频和时长占用的数据量很少,相比传统网络合成方式响应速度更快和流量更少。

发明专利

CN201210585840.X

2012-12-30

CN103077705A

2013-05-01

G10L13/10(2013.01)I

安徽科大讯飞信息科技股份有限公司

郜静文;殷翔;孙见青;江源;刘艳茹;袁武文;张鑫;孙梦娟;赵志伟;吴晓如

230088 安徽省合肥市高新开发区望江西路666号

北京科迪生专利代理有限责任公司 11251

成金玉

安徽;34

一种基于分布式自然韵律优化本地合成方法,其特征在于包括:合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤;第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,用于网络传输;所述参数信息包含基频,时长和频谱信息,其中基频和时长信息在网络端生成;具体实现如下:(1)如果没有录音数据,则文本输入到服务器合成系统,文本前端信息和基频、时长信息均能够利用服务器合成系统生成,由于服务器端相对于终端设备有更多的运算和存储空间,服务器端能够配置最好的语音合成系统,从而获得更准确的前端和基频、时长信息;(2)如果是已有的录音数据,则分为以下三步进行提取:(2.1)合成文本前端信息根据录音数据获取,先生成相应的韵律文本,再转换为语音对应的标注文本;(2.2)时长信息通过发音人已有的合成模型进行状态时长切分,时长信息为音素的状态时长,每个音素包含5个状态,时长信息提前生成,不用等到待合成时再生成;基频信息利用STRAIGHT工具生成,或者使用人工标注的基频,之后按照音素对应的状态为单位,进行基频静态参数均值和一阶动态参数均值的计算。计算以帧为单位,5ms一帧,其中基频静态参数为当前帧F0的对数值,即lf0,一阶动态参数为后一帧的lf0减去前一帧的lf0,差值除以2,基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均,一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均;(2.3)将提取得到的合成文本前端信息输出到文本文件中,而基频均值、时长信息整合到二进制文件中用于网络传输;第二步,低码率网络传输将第一步生成的合成文本前端信息的文本文件和基频均值、时长的二进制文件通过网络方式传输到终端设备上;第三步,终端设备接收到网络数据后,利用本地合成器解析与合成,具体步骤为:(3.1)本地合成器接收到合成文本前端信息进行文本解析后,采用传统参数生成方法,由本地合成模型决策得到文本对应的频谱信息;(3.2)由网络传输得到二进制文件,解码后得到相应的状态时长与基频均值数据,根据MLPG(Maximum Likelihood Parameter Generation)算法生成基频数值,结合上述生成的频谱参数,利用本地参数合成器完成合成,输出合成语音数据。
相关文献
评论
法律状态详情>>
2013-05-01公开
2015-03-04授权
2016-03-02专利权人的姓名或者名称、地址的变更
2013-06-05实质审查的生效
相关作者
相关机构