10.3969/j.issn.1673-1492.2010.04.016
Nutch中文分词的设计与实现
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.
搜索引擎、中文分词、分词器、Nutch
26
TP391.1(计算技术、计算机技术)
河北省张家口市2009年科技攻关计划项目0921047B
2010-11-10(万方平台首次上网日期,不代表论文的发表时间)
共5页
53-56,62