10.3969/j.issn.1673-629X.2018.11.008
ETL任务集群调度方法
随着数据仓库规模越来越大,ETL任务也不断增多,单机调度ETL任务导致多数ETL任务不能按时运行或者不能运行情况时常发生.对基于Kettle的ETL任务调度方法进行了研究,根据这种ETL任务特性,ETL任务调度方法作用的对象是一批相互没有制约的任务.把ETL任务调度分为两个阶段:任务分配与任务执行.为了避免集群负载的不均衡,根据ETL任务的关键特性数据源的数据量,使用贪婪调度算法进行ETL任务分配.为了避免一些ETL任务获取不到机会执行,采用动态调整任务优先级的方法,使用高响应比优先调度算法执行ETL任务.通过ETL任务测试该集群调度方法的效率,主要比较ETL任务执行时所消耗的CPU、内存,以及一次全部的ETL任务执行完成后使用的总时间,并与轮转调度算法进行对比,结果表明效率高于轮转算法.
数据仓库、抽取-转换-加载、quartz集群调度、贪婪调度算法、Kettle
28
TP311(计算技术、计算机技术)
北京市自然科学基金4172018
2018-12-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
35-38