基于自适应算法的非对称语料库条件下的语音转换方法

引用

摘要：

本发明公开了一种基于自适应算法的非对称语料库条件下的语音转换方法，首先运用MAP算法利用少量训练语句从参考说话人模型中分别训练得到源说话人和目标说话人的模型。然后，利用自适应说话人模型中的参数，分别提出了高斯归一化和均值转换的方法。并且为了进一步提高转换效果，进而提出了将高斯归一化方法和均值转换融合的方法。同时，由于训练语句有限，必然影响自适应模型的准确性，本发明提出了KL散度的方法在转换时对说话人模型进行优化，主客观实验结果表明：无论是频谱失真度，还是转换语音的质量以及与目标语音的相似度。本发明提出的方法都获得了和基于对称语料库条件下的经典GMM方法可比拟的效果。

专利类型：发明专利

申请/专利号：CN201310146293.X

申请日期：2013-04-24

公开/公告号：CN103280224A

公开/公告日：2013-09-04

主分类号：G10L21/00(2013.01)I

申请/专利权人:东南大学

发明/设计人:宋鹏;包永强;赵力;刘健刚

主申请人地址:210096 江苏省南京市玄武区四牌楼2号

专利代理机构:南京苏高专利商标事务所(普通合伙) 32204

代理人:李玉平

国别省市代码:江苏;32

权利要求：

一种基于自适应算法的非对称语料库条件下的语音转换方法，其特征在于：首先通过预先准备的参考说话人语句训练得到背景说话人模型；然后通过MAP自适应技术，将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型；接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数，在语音转换过程中，使用高斯归一化和均值转换的方法，以及高斯归一化和均值转换融合的方法；此外通过KL散度发从有限的源说话人和目标说话人训练语句得到准确的说话人模型。

专利专题