DOI：10.16798/j.issn.1003-0530.2022.03.010

一种基于改进注意力机制的实时鲁棒语音合成方法

引用

摘要：

针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度.在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4％;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88.

关键词：语音合成、注意力损失机制、Tacotron 2、WaveGlow、序列到序列

所属期刊栏目：38

分类号：TN912.33

资助基金：国家自然科学基金61673395

在线出版日期：2022-05-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：527-535

英文信息展示

期刊专题