Nutch中PageRank的并行实现
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子a对该算法进行了改进.利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法.实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性.
Nutch搜索引擎、PageRank算法、MapReduce模型、机群、并行计算
31
TP338.6(计算技术、计算机技术)
广西科学基金项目桂科自0832059
2010-12-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
4354-4356,4409