面向小语种机器翻译的平行语料库构建方法

引用

摘要：

神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方法、建议的总结.最终,成功构建了波斯语到汉语、印地语到汉语、印度尼西亚语到汉语各50万条高质量平行语料.实验结果表明,所构建的平行语料库有较好的质量,提高了小语种神经机器翻译模型的训练效果.

关键词：平行语料库;小语种;神经机器翻译模型

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划2019QY1802

在线出版日期：2022-01-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：41-46

英文信息展示

期刊专题