10.3969/j.issn.1672-9722.2009.01.006
基于内容和链接分析的主题爬虫策略
在分析目前常用的主题爬行策略的基础之上,根据PageRank算法的思想,结合基于文本内容的启发式策略和基于Web超链分析的策略二者之间的优点,提出了一种新的爬行策略,并实现了一个主题爬虫.通过与传统策略的对比,可以得出该策略既可以利用链接分析扩大某个主题的资源覆盖度,又可以保证搜索结果与主题的高度相关.
主题爬虫、爬行策略、Web挖掘、论文评估
37
TP393(计算技术、计算机技术)
2009-04-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
22-24,80