一种面向多时间尺度韵律特征的语音转换方法

引用

摘要：

本发明公开了一种面向多时间尺度韵律特征的语音转换方法，属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取，其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型；最后在转换阶段，形成目标说话人的估计特征，得到转换后的语音。本发明不仅能够实现对韵律特性从整体到局部细致完整的刻画，克服韵律信息表述的模糊性和复杂性，而且通过时序性统计模型的建立，实现多时间尺度的韵律特征转换，增强转换语音的说话人个性信息，同时提高转换语音的可懂度和自然度。

专利类型：发明专利

申请/专利号：CN201210538744.X

申请日期：2012-12-13

公开/公告号：CN103021418A

公开/公告日：2013-04-03

主分类号：G10L21/00(2013.01)I

申请/专利权人:南京邮电大学

发明/设计人:李燕萍;张玲华

主申请人地址:210003 江苏省南京市鼓楼区新模范马路66号

专利代理机构:南京经纬专利商标代理有限公司 32200

代理人:朱小兵

国别省市代码:江苏;32

权利要求：

一种面向多时间尺度韵律特征的语音转换方法，其特征在于，包括训练阶段和转换阶段，其中所述训练阶段包括如下步骤：步骤A，语音信号预处理：对目标说话人和源说话人输入的语音信号，分别依次进行预加重、分帧和加窗处理；步骤B，语音特征矢量提取，所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征，其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征，具体提取步骤如下：对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取，得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征；同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解，求取语音信号的谐波成分和噪声成分，然后对谐波加噪声模型的参数进一步降维与量化，最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征；步骤C，根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征，对于每一个时间尺度下的源说话人、目标说话人的韵律特征，分别采用双隐马尔科夫模型进行建模，进行动态特性和统计特性的分析，实现各时间尺度下的韵律特征的转换；步骤D，根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征，采用联合高斯混合模型进行建模，实现频谱特征的转换；所述转换阶段包括如下步骤：步骤E，输入源说话人新的语音，对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作，得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征；步骤F，对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征，采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换；步骤G，对步骤E得到的源说话人新的语音信号的频谱特征，采用上述步骤D得到的高斯混合模型进行语音频谱转换，得到转换后的目标说话人的频谱特征；步骤H，对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成，最终得到转换后的语音。

专利专题