大数据下基于异步累积更新的高效P-Rank计算方法
P-Rank是SimRank的扩展形式,也是一种相似度度量方法,被用来计算网络中任意两个结点的相似性。不同于SimRank只考虑结点的入度信息,P-Rank还加入了结点的出度信息,从而更加客观准确地评价结点间的相似程度。随着大数据时代的到来,P-Rank需要处理的数据日益增大。使用MapReduce等分布式模型实现大规模P-Rank迭代计算的方法,本质上是一种同步迭代方法,不可避免地具有同步迭代方法的缺点:迭代时间(尤其是迭代过程中处理器等待的时间)长,计算速度慢,因此效率低下。为了解决这一问题,采用了一种迭代计算方法--异步累积更新算法。这个算法实现了异步计算,减少了计算过程处理器结点的等待时间,提高了计算速度,节省了时间开销。从异步的角度实现了P-Rank算法,将异步累积更新算法应用在了P-Rank上,并进行了对比实验。实验结果表明该算法有效地提高了计算收敛速度。
异步累积更新、大数据、相似度、P-Rank、大规模计算
TP311(计算技术、计算机技术)
国家自然科学基金61272137,61033010,61202114;国家高技术研究发展计划8632014AA015204;国家基础研究发展计划9732012CB316205;国家社会科学基金12&ZD220;中国人民大学科学研究基金中央高校基本科研业务费专项资金资助10XNI018
2014-09-23(万方平台首次上网日期,不代表论文的发表时间)
共13页
2136-2148