DOI：10.3969/j.issn.1672-6081.2022.06.010

多语言专利机器翻译平行语料构建方法研究

引用

摘要：

神经网络机器翻译技术本质上是数据驱动型技术,大规模、高质量的语料资源是构建高性能多语种神经网络机器翻译系统的基础条件,语料资源建设至关重要.本文基于现有专利机器翻译引擎训练语料扩充及特定语言方向专利语料资源建设的需求,对基于标准BLEU4算法、基于伪数据构建及基于同族专利数据进行多语言专利平行语料构建的方法分别进行研究,并分析总结不同的专利平行语料构建方法的优劣及各自的适用场景,以期探索多语言专利平行语料构建的可靠方案,有效扩充现有专利语料资源.

关键词：多语言平行语料构建、中间语言匹配、标准BLEU4算法、伪数据构建、同族专利

所属期刊栏目：19

分类号：TP391.2(计算技术、计算机技术)

在线出版日期：2022-06-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：70-75,80

英文信息展示

期刊专题