低资源语种傣汉神经机器翻译方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.16112/j.cnki.53-1223/n.2020.04.008

低资源语种傣汉神经机器翻译方法

引用
近年来随着人工智能和深度学习的发展,在神经机器翻译(NMT)的加持下,机器翻译的水平取得了长足的进步,但是在较大语料的情况下才能取得好的效果.此外,NMT的成功需要依赖于大量高质量的双语语料作为训练数据.在英法等丰富资源的语种(Rich resource language)翻译任务上,神经机器翻译机器的表现几乎可以媲美人类的水平.对于一些小语种(俗称低资源语种:Low resource language),无法提供足够多的双语数据,导致NMT出现过拟合问题,从而降低翻译效果.据此本文以低资源的汉傣语翻译为例,针对神经机器在低资源汉傣语机器翻译表现不佳的问题现状,开展了如下研究:(1)构造了以词向量为基础的初始化模型,利用傣汉词向量空间对齐的方法,来初始化神经翻译模型的词嵌入层以提高翻译的性能;(2)设计了傣汉词向量空间的对齐方法;(3)提出了一种基于词对齐的神经机器翻译框架.通过汉/傣、傣/汉双向翻译实验证明,该方法可以分别使汉/傣、傣/汉机器翻译的BLEU值提高2.38个和0.43个BLEU点.

低资源神经机器翻译、初始化模型、词向量对齐、注意力机制

45

TP391(计算技术、计算机技术)

国家自然科学基金项目;中国科学院信息化专项子课题;云南省民族事务委员会农业信息化项目

2020-10-15(万方平台首次上网日期,不代表论文的发表时间)

共7页

57-63

相关文献
评论
暂无封面信息
查看本期封面目录

昆明理工大学学报(自然科学版)

1007-855/X

53-1123/T

45

2020,45(4)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn