10.3969/j.issn.1672-9722.2020.05.027
基于LPCNet的语音合成方法研究
针对诸如WaveNet的神经声码器合成语音缓慢和模型复杂的问题,提出一种基于LPCNet的语音合成方法.首先将中文带调拼音序列作为输入,然后通过引入Query-Key self attention注意力机制的Seq2Seq(Sequence to Sequence)特征预测网络生成相应的梅尔声谱图,最后使用LPCNet模型将梅尔声谱图还原为语音波形.实验结果表明,主观评测MOS(Mean Opinion Score)得分4.07,客观评测MCD(Mel Cepstral Distance)得分12.14,合成语音的质量优于参数式语音合成模型和采用传统声码器的Seq2Seq语音合成模型,是一种优良的语音合成方法.
语音合成、Seq2Seq、WaveNet、注意力机制、LPCNet
48
TP183;TN912.3(自动化基础理论)
国家自然科学基金项目编号:61602427
2020-07-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
1143-1147,1226