共享的MapReduce环境下批量作业的调度算法研究
MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能.但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法)被提出.首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对TD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求.
共享环境、MapReduce、批量作业、任务调度、吞吐量
50
TP311.13(计算技术、计算机技术)
国家“九七三”重点基础研究计划基金项目2012CB316201;国家自然科学基金面上项目61033007,61003060;中央高校基本科研专项资金重点课题N100704001;教育部博士点基金项目20120042110028;教育部-英特尔信息技术专项科研基金项目MOE-INTEL-2012-06
2014-04-30(万方平台首次上网日期,不代表论文的发表时间)
共10页
332-341