基于BERT的端到端语音合成方法

引用

摘要：

针对基于RNN的神经网络语音合成模型训练和预测效率低下以及长距离信息丢失的问题,提出了一种基于BERT的端到端语音合成方法,在语音合成的Seq2Seq架构中使用自注意力机制(Self-Attention Mechanism)取代RNN作为编码器.该方法使用预训练好的BERT作为模型的编码器(Encoder)从输入的文本内容中提取上下文信息,解码器(Decoder)采用与语音合成模型Tacotron2相同的架构输出梅尔频谱,最后使用训练好的WaveGlow网络将梅尔频谱转化为最终的音频结果.该方法在预训练BERT的基础上通过微调适配下游任务来大幅度减少训练参数和训练时间.同时,借助其自注意力(Self-Atten-tion)机制还可以并行计算编码器中的隐藏状态,从而充分利用GPU的并行计算能力以提高训练效率,并能有效缓解远程依赖问题.与Tacotron2模型的对比实验表明,文中提出的模型能够在得到与Tacotron2模型相近效果的基础上,把训练速度提升1倍左右.

关键词：语音合成、循环神经网络、Seq2Seq、WaveGlow、注意力机制

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;安徽省重点研究与开发计划项目;中央高校基本科研业务专项

在线出版日期：2022-04-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：221-226

英文信息展示

期刊专题