基于Timed-PageRank的聚焦爬虫优化研究
传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed-PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率.
传统网络爬虫、PageRank算法、聚焦爬虫、Timed-PageRank改进算法
36
TP391.3(计算技术、计算机技术)
2015-04-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
141-144