10.3969/j.issn.1000-3428.2008.10.030
基于压缩后缀数组技术的搜索引擎
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低.该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码.对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%.
压缩后缀数组、倒排文件、后缀数组、搜索引擎
34
TP391.3(计算技术、计算机技术)
陕西省自然科学基金资助项目2005F07
2008-07-14(万方平台首次上网日期,不代表论文的发表时间)
共4页
83-85,88