10.3969/j.issn.1000-1220.2021.04.011
基于深度前编码卷积网络的汉越语音翻译方法
语音翻译是将源语言语音翻译为目标语言文本的过程.传统序列到序列模型应用到语音翻译领域时,模型对于序列长度较为敏感,编码端特征提取和局部依赖建模压力较大.针对这一问题,本文基于Transformer网络构建语音翻译模型,使用深度卷积网络对音频频谱特征进行前编码处理,通过对音频序列进行下采样,对音频频谱中的时频信息进行局部依赖建模和深层特征提取,缓解编码器的建模压力,实现了汉越双语的语音到文本互译.实验结果表明,提出方法取得很好效果,相比基准系统获得了约19%的性能提升.
语音翻译、语音识别、机器翻译
42
TP391(计算技术、计算机技术)
国家重点研发计划项目2018YFC0830105,2018YFC0830101,2018YFC0830100
2021-05-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
736-739