10.3969/j.issn.1673-629X.2011.05.016
一种消除中文分词中交集型歧义的方法
切分速度和精度是中文分词系统的两个主要性能指标.针对传统的中文分词中出现的分词速度慢和分词精度不高的问题,采用了双层hash结构的词典机制来提升分词的速度,对于匹配结果中出现的交集型歧义字段,通过互信息的方法来消除,以提高分词精度.并对该分词系统进行了实现.通过与传统的中文分词系统的分词速度以及分词效果的对比,发现该系统在分词速度和精度上都有所进步,从而取得较好的分词效果.
中文分词、互信息、交集型歧义
21
TP31(计算技术、计算机技术)
安徽省自然科学基金项目090412054
2011-09-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
60-63