基于Larbin的网络爬虫体系结构的研究与改进
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-629X.2012.07.040

基于Larbin的网络爬虫体系结构的研究与改进

引用
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高.它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取.通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率.经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%.

Larbin、爬虫、哈希算法、url去重、布隆过滤器

22

TP309(计算技术、计算机技术)

国家863高技术发展计划项目2010AA122200;上海市科委国际合作项目10510712500

2012-10-29(万方平台首次上网日期,不代表论文的发表时间)

共5页

147-150,170

相关文献
评论
暂无封面信息
查看本期封面目录

计算机技术与发展

1673-629X

61-1450/TP

22

2012,22(7)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn