DOI：10.16208/j.issn1000-7024.2021.08.024

基于Spark的倾斜数据虚拟划分算法

引用

摘要：

针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP.通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时.

关键词：数据倾斜;虚拟划分;类别数据;互信息并行计算;负载均衡

所属期刊栏目：42

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目61876122、61602335

在线出版日期：2021-08-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：2271-2276

英文信息展示

期刊专题