10.3969/j.issn.1003-3513.2009.04.001
基于Nutch的Web网站定向采集系统
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨.
网站定向采集系统、Nutch、网站抓取、网页去噪
G250.76(图书馆学、图书馆事业)
国家"十一五"科技支撵计划子课题"网络科技信息监测与评价"项且2006BAH03805的研究成果之一
2009-06-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
1-6