10.3778/j.issn.1002-8331.1309-0439
维吾尔语多词表达抽取方法研究
多词表达是特殊的语言现象,一般由多个词构成来表示一个意义,语料中常出现在一起。多词表达因是特殊的单元,其抽取在自然语言处理的很多领域有着非常重要的作用。讨论了目前常见的三种统计方法即互信息、对数似然比以及卡方等在维吾尔语多词表达抽取方面的影响。根据维吾尔语的特点,将词干作为一项特征加到抽取方法中。语料的选择上考虑了覆盖面及领域,并探讨了它们对抽取方法的影响。
多词表达、互信息、对数似然比、卡方、维吾尔语
TP391(计算技术、计算机技术)
国家自然科学基金No.61262061;新疆多语种信息技术重点实验室开放课题。
2014-04-29(万方平台首次上网日期,不代表论文的发表时间)
共5页
26-30