10.16088/j.issn.1001-6600.2019.01.010
汉语-印尼语平行语料自动对齐方法研究
双语平行语料库是多语种自然语言处理的重要资源,已被广泛地应用于机器翻译、机助人译、翻译知识抽取与跨语言信息检索等领域中.本文针对汉语-印尼语平行语料的自动对齐与可比语料的自动提取问题,提出了基于锚点和词典相结合的段落对齐方法,并在此基础上采用基于置信区间的长度模型实现句子对齐,同时,为了快速提高汉语-印尼语平行语料库的构建效率,还提出了基于跨语言文档相似度的可比语料提取方法.实验结果表明,本文提出的平行语料对齐方法和可比语料提取方法的准确率较传统方法有显著的提高,说明本文提出方法是有效的、可行的.
平行语料、语料库构建、可比语料、段落对齐、句对齐
37
TP391.1(计算技术、计算机技术)
国家自然科学基金61572145;国家社会科学基金青年项目17CTQ045;广东省教育厅基础研究重大项目及应用研究重大项目2017KZDXM031;2018年广东大学生科技创新培育专项资金pdjhb0177
2019-02-27(万方平台首次上网日期,不代表论文的发表时间)
共9页
89-97