10.3979/j.issn.1673-825X.2018.05.013
利用说话人自适应实现基于DNN的情感语音合成
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法.该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音.主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高.客观实验表明,合成的情感语音频谱更接近原始语音.所以,该方法能够提高合成情感语音的自然度和情感度.
情感语音合成、深度神经网络、说话人自适应训练、WORLD声码器、隐马尔可夫模型
30
TN912.33
国家自然科学基金11664036,61263036;甘肃省高等学校科技创新团队项目2017C-03
2018-11-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
673-679