基于改进的慢开始算法的网络机器人爬取策略的研究
本文以网络信息数据挖掘技术为背景,通过对现有的网络机器人(网络爬虫)的几种不同的工作策略进行分析,提出了一种基于改进的慢开始算法的网络机器人工作策略,目的在于是找到一种自适应更新频率的网页爬取方案,使网络机器人能够智能通过对源网页更新频率、用户对该网页的访问量以及新旧网页之间的相似度、服务器系统资源等因素综合判断,来自适应的调节网络机器人对源网页的爬取频率,使在保证一定用户满意度的前提下,最大化的利用系统资源。
计算机应用技术、网络机器人、慢开始、爬取频率
TP315(计算技术、计算机技术)
国家高技术研究发展计划课题基金2011AA100706
2014-01-16(万方平台首次上网日期,不代表论文的发表时间)
共8页
42-49