10.3969/j.issn.1000-7024.2014.01.058
基于Tika和Lucene的桌面搜索引擎研究与实现
在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护.从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档.整个框架均为开放源代码形式,各模块间耦合度低,易于扩展.在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT (documents writer per thread)技术,使索引性能提升了35%.
桌面搜索引擎、索引优化、索引片断、多线程索引、多线程写入
35
TP393(计算技术、计算机技术)
国家自然科学基金项目61272446;北京市属高等学校人才强教深化计划“中青年骨干人才”基金项目PHR201008083
2014-03-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
310-314