10.19678/j.issn.1000-3428.0059863
面向汉维机器翻译的BERT嵌入研究
针对训练汉维机器翻译模型时汉语-维吾尔语平行语料数据稀疏的问题,将汉语预训练语言B E RT模型嵌入到汉维神经机器翻译模型中,以提高汉维机器翻译质量.对比不同汉语B E RT预训练模型编码信息的嵌入效果,讨论BERT不同隐藏层编码信息对汉维神经机器翻译效果的影响,并提出一种两段式微调BERT策略,通过对比实验总结出将B E RT模型应用在汉维神经机器翻译中的最佳方法.在汉维公开数据集上的实验结果显示,通过该方法可使机器双语互译评估值(BLEU)提升1.64,有效提高汉维机器翻译系统的性能.
汉维翻译;神经机器翻译;预训练语言模型;BERT模型;两段式微调策略
47
TP18(自动化基础理论)
国家自然科学基金"融合复杂形态特征的多语言神经机器翻译研究";国家重点研发计划"维吾尔语、哈萨克语到汉语的机器翻译研究";新疆高层次引进人才项目;中国科学院"西部之光"人才培养计划A类项目"以和田墨玉为例的维汉翻译关键技术研究"
2021-12-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
112-117