基于自适应算法的非对称语料库条件下的语音转换方法
本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后,利用自适应说话人模型中的参数,分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果,进而提出了将高斯归一化方法和均值转换融合的方法。同时,由于训练语句有限,必然影响自适应模型的准确性,本发明提出了KL散度的方法在转换时对说话人模型进行优化,主客观实验结果表明:无论是频谱失真度,还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。
发明专利
CN201310146293.X
2013-04-24
CN103280224A
2013-09-04
G10L21/00(2013.01)I
东南大学
宋鹏;包永强;赵力;刘健刚
210096 江苏省南京市玄武区四牌楼2号
南京苏高专利商标事务所(普通合伙) 32204
李玉平
江苏;32
一种基于自适应算法的非对称语料库条件下的语音转换方法,其特征在于:首先通过预先准备的参考说话人语句训练得到背景说话人模型;然后通过MAP自适应技术,将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型;接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数,在语音转换过程中,使用高斯归一化和均值转换的方法,以及高斯归一化和均值转换融合的方法;此外通过KL散度发从有限的源说话人和目标说话人训练语句得到准确的说话人模型。