基于MapReduce的并行PageRank算法实现
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1000-3428.2014.02.007

基于MapReduce的并行PageRank算法实现

引用
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以 TB 甚至 PB 量级的数据,单机模式下的PageRank 算法由于 CPU、I/O 和内存的开销过大导致效率低下。为此,提出一种基于 MapReduce 框架的并行 PageRank 算法。在算法的一次迭代过程中,利用 Map 函数对网页拓扑信息文件进行解析,使用 Reduce 函数计算网页得分,从而并行化 PageRank 算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank 算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。

搜索引擎、PageRank 算法、MapReduce 框架、并行计算、Hadoop 平台

TP391.3(计算技术、计算机技术)

国家自然科学基金资助项目61103069,71170148;国家科技支撑计划基金资助项目2012BAD35B01;上海市科技创新计划基金资助项目11DZ1501703;陈家镇智慧社区和智能交通基金资助项目11dz1210600

2014-05-28(万方平台首次上网日期,不代表论文的发表时间)

共5页

31-34,38

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程

1000-3428

31-1289/TP

2014,(2)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn