DOI：10.3969/j.issn.1002-1965.2005.08.005

基于电子政务主题词表的中文匹配方法

引用

摘要：

讨论了基于电子政务主题词表的中文匹配方法.该方法以电子政务主题词表为基础,对中文文本进行匹配,找出文本中的主题词,作为进一步标引文本和检索文本的前提.为了匹配出文本中出现频率较高的而主题词表中没有的词语,我们根据n-Gram统计特性学习新词.对于匹配结果中出现的交集型歧义这类主要的歧义类型,通过计算匹配词语与其交集词语各自字符之间的互信息值,来消除匹配词语的交集歧义,互信息值较大的词说明该字符组合的可能性比较大.

关键词：电子政务、主题词表、中文匹配、新词学习、互信息值

所属期刊栏目：24

分类号：D6(中国政治)

在线出版日期：2005-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：14-15,13

英文信息展示

期刊专题