10.3969/j.issn.1009-1440.2017.05.045
基于Heritrix主题爬虫的定制与实现
本文在开源爬虫框架Heritrix基础上,进行多线程优化,定制面向搜狐新闻网页爬取的主题爬虫.试验表明,在改进扩展后的Heritrix基础上,能高效快速爬取搜狐站点下的新闻网页.
主题爬虫、定制与实现
G25;TP3
2017-11-29(万方平台首次上网日期,不代表论文的发表时间)
共1页
68
点击收藏,不怕下次找不到~
10.3969/j.issn.1009-1440.2017.05.045
主题爬虫、定制与实现
G25;TP3
2017-11-29(万方平台首次上网日期,不代表论文的发表时间)
共1页
68
国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”
国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304
©天津万方数据有限公司 津ICP备20003920号-1
违法和不良信息举报电话:4000115888 举报邮箱:problem@wanfangdata.com.cn