10.16798/j.issn.1003-0530.2021.05.024
基于对抗训练的端到端语音翻译研究
为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法.通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布.引入了Wasserstein GAN (WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover (EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题.整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和MuST-C英中数据集上验证了本文提出算法的有效性,该方法可以显著提升翻译质量.
语音翻译、文本翻译、Wasserstein生成对抗网络、多任务学习
37
TP391.2(计算技术、计算机技术)
国家重点研发计划2020AAA0108002
2021-06-21(万方平台首次上网日期,不代表论文的发表时间)
共9页
893-901