DOI：10.16798/j.issn.1003-0530.2021.05.024

基于对抗训练的端到端语音翻译研究

引用

摘要：

为了进一步利用源文本数据来提高语音翻译的性能,本文提出了一种基于生成对抗网络的端到端语音翻译算法.通过加入判别网络来判断语音特征序列和文本特征序列的真伪,从而引导生成模型来学习文本真实序列的分布,以使语音序列特征分布更加逼近文本特征序列的分布.引入了Wasserstein GAN (WGAN)来计算语音特征序列和文本特征序列通过判别器的标量似然值的Earth-Mover (EM)距离,来解决语音特征序列和文本特征序列存在长度不一致的问题.整个模型遵从多任务学习和对抗学习的训练准则,本文在How2数据集上和MuST-C英中数据集上验证了本文提出算法的有效性,该方法可以显著提升翻译质量.

关键词：语音翻译、文本翻译、Wasserstein生成对抗网络、多任务学习

所属期刊栏目：37

分类号：TP391.2(计算技术、计算机技术)

资助基金：国家重点研发计划2020AAA0108002

在线出版日期：2021-06-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：893-901

英文信息展示

期刊专题