MapReduce计算模型下基于虚拟分区的数据倾斜处理方法
针对MapReduce计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR-SH在Map阶段采用虚拟分区,使得< Key,Value>键值对分散存储,为后续重分区提供更优分区组合;在Reduce阶段,HVBR-SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区,并确保重分区后最大分区的数据量最小,加快整个Reduce阶段的执行速度.对比实验结果表明,HVBR-SH算法能有效平衡各个Reduce任务的输入规模并控制运行时间,有效改善了Reduce输入倾斜问题,提高了MapReduce任务的执行效率.
MapReduce、数据倾斜、虚拟分区
36
TP311(计算技术、计算机技术)
国家自然科学基金项目U1304603;河南省教育厅科学技术研究重点项目13A520651;郑州市重大科技专项项目131PZDZX050
2016-09-18(万方平台首次上网日期,不代表论文的发表时间)
共5页
1706-1710