10.3969/j.issn.1000-565X.2011.04.001
基于文档重要度的静态索引剪枝方法
针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法.
搜索引擎、倒排索引、静态索引剪枝、文档重要度
39
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60933004;广东省计算机网络重点实验室资助项目CCNL200601;"核心电子器件、高端通用芯片及基础软件产品"国家科技重大专项项目2011ZX01042-001-001
2011-08-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
1-6