使用源语言复述知识改善统计机器翻译性能
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架.此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中.在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性.在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+l.4%);在训练语料规模最大的情况下(1M句对),系统性能也取得一定提升(BLEU+0.32%).
复述知识、短语翻译表、特征、解码器
51
TP391(计算技术、计算机技术)
国家国际科技合作专项2014DFA11350;国家自然科学基金61370130;北京交通大学人才基金2011RC034
2017-01-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
342-348