DOI：10.3969/j.issn.1000-1220.2021.01.016

融合主题及上下文特征的汉缅双语词汇抽取方法

引用

摘要：

缅甸语属于低资源语言,网络中获取大规模的汉-缅双语词汇一定程度上可以缓解汉-缅机器翻译中面临句子级对齐语料匮乏的问题.为此,本文提出了一种融合主题及上下文特征的汉缅双语词汇抽取方法.首先利用LDA主题模型获取汉缅文档主题分布,并通过双语词向量表征将跨语言主题向量映射到共享的语义空间后抽取同一主题下相似度较高的词作为汉-缅双语候选词汇,然后基于BERT获取候选双语词汇相关上下文的词汇语义表征构建上下文向量,最后通过计算候选词的上下文向量的相似度对候选双语词汇进行加权得到质量更高的汉缅互译词汇.实验结果表明,相对于基于双语词典的方法和基于双语LDA+CBW的方法,本文提出的方法准确率上分别提升了11.07％和3.82％.

关键词：汉缅双语词汇、主题特征、上下文特征、BERT、双语词向量

所属期刊栏目：42

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金重点项目;国家自然科学基金项目;云南省中青年学术和技术带头人后备人才项目;云南省自然科学基金重点项目

在线出版日期：2021-01-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：91-95

英文信息展示

期刊专题