10.3969/j.issn.1003-3254.2015.07.023
Rabin指纹去重算法在搜索引擎中的应用
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度。
Rabin指纹方法、搜索引擎、去重、URL、海量数据
TP3;TN9
国家档案局项目2014-X-65
2015-08-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
128-131