MapReduce在线抽样分区负载均衡研究
数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过对源数据抽样分析,预测数据的分布特征,动态采取相应的负载均衡数据分区策略;在作业运行期间实时监控节点负载,进一步动态优化数据分区策略.实验结果表明:MR-LSP能够提高系统3.2%的负载均衡,降低4.3%的作业执行时间,有效缓解了MapReduce的数据倾斜问题.
MapReduce、数据倾斜、动态调度、抽样分区
38
TP311(计算技术、计算机技术)
河南省高等学校重点科研项目16A520027
2017-08-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
238-242