一种基于受限玻尔兹曼机的语音合成方法

引用

摘要：

本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。

专利类型：发明专利

申请/专利号：CN201310099895.4

申请日期：2013-03-26

公开/公告号：CN103226946A

公开/公告日：2013-07-31

主分类号：G10L13/027(2013.01)I

申请/专利权人:中国科学技术大学

发明/设计人:凌震华;陈凌辉;戴礼荣

主申请人地址:230026 安徽省合肥市包河区金寨路96号

专利代理机构:北京凯特来知识产权代理有限公司 11260

代理人:郑立明%陈亮

国别省市代码:安徽;34

权利要求：

一种基于受限玻尔兹曼机的语音合成方法，其特征在于，所述方法包括：在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练；在单高斯的HMM训练完成后，利用训练得到的Gaussian?HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况；在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测；利用Gaussian?HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。

专利专题