10.3969/j.issn.1673-629X.2014.09.022
Hadoop迭代优化技术的研究
Hadoop是处理海量数据的分布式计算框架,已经得到了广泛的应用。但是Hadoop处理图结构数据存在一些不足。图结构数据的强耦合特性,无法通过一次MapReduce计算得出结果,而是需要迭代计算,甚至一次迭代需要多次Ma-pReduce完成。而重新启动MapReduce作业,开销较大,以及迭代过程中可能存在静态数据的不必要传输。文中在Hadoop的基础之上,提出map端存储的策略,即将静态数据存储在map端,在map端完成静态与动态数据相关的计算,减少了整个迭代计算的总运行时间。通过搭建修改过的Hadoop平台,与改进前迭代方案进行比较,实验结果表明map端存储策略运行时间得到了一定程度的减少。
Hadoop、迭代、map端存储
TP31(计算技术、计算机技术)
国家自然科学基金资助项目61003237
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
98-102