10.3969/j.issn.1002-1965.2005.08.005
基于电子政务主题词表的中文匹配方法
讨论了基于电子政务主题词表的中文匹配方法.该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提.为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n-Gram统计特性学习新词.对于匹配结果中出现的交集型歧义这类主要的歧义类型,通过计算匹配词语与其交集词语各自字符之间的互信息值,来消除匹配词语的交集歧义,互信息值较大的词说明该字符组合的可能性比较大.
电子政务、主题词表、中文匹配、新词学习、互信息值
24
D6(中国政治)
2005-09-15(万方平台首次上网日期,不代表论文的发表时间)
共3页
14-15,13