10.3969/j.issn.1672-9870.2021.05.015
基于Storm非合作博弈调度的ETL研究
实时ETL(Extract-Translation-Load)打破了传统数据仓库离线批处理模式,采用了实时流处理策略,将变更数据发送至目标仓库.研究目的是降低ETL过程处理延迟,在短时间内确保源端和目标端数据一致性.采用了纯流式数据处理框架Storm研究ETL流程.变更数据捕获(CDC)作为ETL流程的关键步骤,当面对海量数据时,传统的基于快照捕获变更的方法,因延时高阻碍了实时ETL发展.Storm默认采用轮询调度算法,忽视了工作节点间网络通信开销以及集群负载均衡的问题.针对传统变更捕获方法存在延迟高的问题,提出了基于变更数据标记捕获算法(C D M C).针对Storm默认调度存在的问题,提出了基于非合作博弈的Storm调度算法(Game-Storm).Storm通过组件Spout提取源端变更数据,交于逻辑处理组件Bolt,最终加载至目标仓库.综合考虑了标记捕获策略和博弈调度策略,形成了ETL流程的优化策略(GS-M-ETL).实验分析表示,这种新方法使ETL处理延迟降低了29.5%.
ETL;变更捕获;调度;通信开销;负载均衡
44
TP391(计算技术、计算机技术)
国家重点研发项目2017YFB1401800
2021-11-01(万方平台首次上网日期,不代表论文的发表时间)
共10页
93-102