DOI：10.3969/j.issn.1001-0548.2019.04.014

Spark框架并行度推断算法

引用

摘要：

分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效.针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标.最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelism deduction algorithm,PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能.实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性.

关键词：内存计算、并行度推断、性能优化、Spark、溢写概率

所属期刊栏目：48

分类号：TP393.09(计算技术、计算机技术)

资助基金：新疆维吾尔自治区自然科学基金2017D01A20

在线出版日期：2019-07-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：567-574

英文信息展示

期刊专题