基于ISE算法的分布式ETL任务调度策略研究
随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度.针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度.在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级.在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡.在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级.实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行(Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间.
任务调度、负载均衡、动态分配、分布式集群、ETL、数据集成
46
TP301(计算技术、计算机技术)
国家自然科学基金重点项目61832004
2020-01-11(万方平台首次上网日期,不代表论文的发表时间)
共7页
1-7