10.3969/j.issn.1008-0570.2007.06.078
一种新的主题爬行算法
爬虫是搜索引擎的关键组成部分,本文提出了一种可利用之前爬行数据自动改进其分析算法与种子URL集合的主题爬行算法,并讨论了其首次爬行和再次爬行算法.实验结果表明该算法的准确率在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫.
主题爬行、Web分析、超链分析、搜索引擎
23
TP3(计算技术、计算机技术)
国家重点基础研究发展计划973计划2004CB318003
2007-04-24(万方平台首次上网日期,不代表论文的发表时间)
共3页
193-195