基于索引偏移的MapReduce聚类负载均衡策略
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11896/j.issn.1002-137X.2018.05.053

基于索引偏移的MapReduce聚类负载均衡策略

引用
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中.其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题.基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用.为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略.该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡.基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法.

MapReduce、数据倾斜、负载均衡、分布式聚类、索引偏移

45

TP311(计算技术、计算机技术)

国家自然科学基金51174257;安徽理工大学矿业企业安全管理研究中心招标项目SK2015A084;安徽省高校优秀青年人才支持计划项目资助

2018-06-15(万方平台首次上网日期,不代表论文的发表时间)

共7页

303-309

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

45

2018,45(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn