一种基于动态划分的MapReduce负载均衡方法
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡.具体地,对Map的结果进行采样,并将其发送给Job Tracker.JobTracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性.
MapReduce、负载均衡、动态划分、数据倾斜、采样
50
TP311(计算技术、计算机技术)
国家自然科学基金项目61073018,61272156;国家“八六三”高技术研究发展计划基金项目2012AA011002
2014-04-30(万方平台首次上网日期,不代表论文的发表时间)
共9页
369-377