10.13700/j.bh.1001-5965.2020.0475
融合句嵌入的VAACGAN多对多语音转换
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换.辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度.通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量.实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换.
语音转换、句嵌入、文本编码器、辅助分类器生成对抗网络(ACGAN)、变分自编码器、非平行文本、多对多
47
TN912.3
国家自然科学基金;国家自然科学基金;国家自然科学基金;金陵科技学院智能人机交互科技创新团队建设专项
2021-04-19(万方平台首次上网日期,不代表论文的发表时间)
共9页
500-508