DOI：10.11896/j.issn.1002-137X.2018.05.053

基于索引偏移的MapReduce聚类负载均衡策略

引用

摘要：

MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中.其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题.基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用.为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略.该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡.基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法.

关键词：MapReduce、数据倾斜、负载均衡、分布式聚类、索引偏移

所属期刊栏目：45

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金51174257;安徽理工大学矿业企业安全管理研究中心招标项目SK2015A084;安徽省高校优秀青年人才支持计划项目资助

在线出版日期：2018-06-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：303-309

英文信息展示

期刊专题