基于增量式分区策略的 MapReduce 数据均衡方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11897/SP.J.1016.2016.00019

基于增量式分区策略的 MapReduce 数据均衡方法

引用
MapReduce 以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析。开源系统 Hadoop 很好地实现了 MapReduce 模型,但由于自身采用一次分区机制,即通过 Hash/Range 分区函数对数据进行一次划分,导致在处理密集数据时,Reduce 端常会出现数据倾斜的问题。虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免。为解决数据划分的不均衡,该文提出一种将分区向 Reducer 指派时按照多轮分配的分区策略。该方法首先在 Map 端产生多于 Reducer 个数的细粒度分区,同时在 Mapper 运行过程中实时统计各细粒度分区的数据量;然后由 JobTracker 根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各 Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行 Reduce()函数前,将所有细粒度分区分配到 Reduce 端,以此解决分区后各 Reducer 接收数据总量均衡的问题。最后在 Zipf 分布数据集和真实数据集上与现有的分区切分方法Closer 进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题。

增量分配、细粒度分区、数据倾斜、均衡分区、MapReduce、大数据

TP311(计算技术、计算机技术)

国家“九七三”重点基础研究发展规划项目基金2012CB316203;国家自然科学基金61033007,61332006,61472321;西北工业大学基础研究基金3102014JSJ0005,3102014JSJ0013资助.

2016-03-23(万方平台首次上网日期,不代表论文的发表时间)

共17页

19-35

相关文献
评论
暂无封面信息
查看本期封面目录

计算机学报

0254-4164

11-1826/TP

2016,(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn