10.3969/j.issn.1673-629X.2010.03.021
基于Lucene的中文倒排索引技术的研究
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式.倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了 Lucene 索引文件的结构、索引过程以及相关排序算法,讨论了Lucene 的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引.实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高.
全文检索、倒排索引、索引压缩、Lucene
20
TP391.3(计算技术、计算机技术)
2010-05-04(万方平台首次上网日期,不代表论文的发表时间)
共4页
80-83