10.3969/j.issn.1007-130X.2017.02.010
Hadoop下改进布隆过滤器算法的网页去重
针对服务器中存储的大量重复和相似数据造成的空间浪费问题,改进的布隆过滤器(Bloom Filter)算法通过增加位数组并根据位数组的重复命中次数所计算的权重来动态优化重复数据的副本数,然后在Hadoop分布式集群下对改进的算法进行并行实现,以进一步提高作业处理效率.实验结果表明,与传统网页去重算法相比,改进的Bloom Filter算法的并行实现不仅提高了作业的处理效率,而且通过基于位数组下动态重复次数对副本数的优化,在一定程度上节省了服务器的存储空间.
Hadoop、布隆过滤器、副本数、MapReduce
39
TP301(计算技术、计算机技术)
河北省自然科学基金F2015402077;河北省重点基础研究项目14964206D
2017-04-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
285-290