10.3969/j.issn.1673-629X.2011.08.002
Hadoop-MapReduce下的PageRank矩阵分块算法
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功.但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢.文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销.最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能.结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PgeRank标识网页等级显示其优越性.
PageRank、MapReduce、Hadoop、矩阵分块
21
TP301.6(计算技术、计算机技术)
云南省自然科学基金2007F174M;云南大学研究生科研课题资助项目ynny200928
2011-12-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
6-9,13