10.3969/j.issn.1000-7024.2006.23.002
支持智能中文分词的互联网搜索引擎的构建
中文分词技术对中文搜索引擎的查准率及查全率有重大影响.在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced.它可用作评测各类中文分词算法对搜索引擎的影响的实验平台.对NutchEnhanced的搜索质量与Nutch、Google、百度进行了,对比评测.结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量.
中文分词、分词算法、搜索引擎、词法分析器、检索精度
27
TP391.3(计算技术、计算机技术)
国家高技术研究发展计划863计划2004AA119030
2007-01-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
4395-4398,4407