DOI：10.3969/j.issn.1672-9722.2020.05.027

基于LPCNet的语音合成方法研究

引用

摘要：

针对诸如WaveNet的神经声码器合成语音缓慢和模型复杂的问题,提出一种基于LPCNet的语音合成方法.首先将中文带调拼音序列作为输入,然后通过引入Query-Key self attention注意力机制的Seq2Seq(Sequence to Sequence)特征预测网络生成相应的梅尔声谱图,最后使用LPCNet模型将梅尔声谱图还原为语音波形.实验结果表明,主观评测MOS(Mean Opinion Score)得分4.07,客观评测MCD(Mel Cepstral Distance)得分12.14,合成语音的质量优于参数式语音合成模型和采用传统声码器的Seq2Seq语音合成模型,是一种优良的语音合成方法.

关键词：语音合成、Seq2Seq、WaveNet、注意力机制、LPCNet

所属期刊栏目：48

分类号：TP183;TN912.3(自动化基础理论)

资助基金：国家自然科学基金项目编号:61602427

在线出版日期：2020-07-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1143-1147,1226

英文信息展示

期刊专题