10.11830/ISSN.1000-5013.201702012
融合链接结构的主题爬虫算法
通过分析基于内容的链接选择Best-First算法,引入能够体现链接价值的HITS(hyperlink induced topic search)算法,提出了新的链接选择策略.将两种算法相结合,新的爬虫不仅仅考虑页面内容,同时将链接结构加入进来,使得在下载的过程中能够保证主题相关性和权威性,缓解爬虫在爬行阶段的"近视"现象.结果表明:新的爬行策略比单一的Best-First算法具有更好的性能表现.
Best-First算法、链接结构、HITS算法、爬行策略
38
TP311(计算技术、计算机技术)
福建省科技厅科研基金资助项目2011H6016
2017-05-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
195-200