基于Lucene的自定义中文分词器的设计与实现
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。
中文分词、复杂最大匹配、Lucene、分词器
TP393(计算技术、计算机技术)
2014-02-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
430-433