10.3969/j.issn.1673-629X.2018.11.006
基于Kafka、Disruptor技术对传统ETL的改进
ETL系统是构建和维护数据仓库的基本构件,对异构数据源中的业务数据进行抽取、清洗、转换可通过ETL工具将其装载到数据仓库中.但是,当数据量上升到一定程度时,传统的ETL在数据处理速度以及数据的准确性方面会大大降低,并且不能满足数据源多种多样的变化需求.针对如何同时具有高效的数据处理能力和通用的数据源访问能力的问题,提出一种对传统ETL进行改进的方案.利用Kafka和Disruptor并发框架相结合,从数据源中抽取数据放入Kafka集群,结合Disruptor高吞吐和低延迟的特点,实现了数据高效的传输,使数据可以在不同数据源之间进行清洗和转换,同时在数据传输准确性方面有了极大的改进,保证了数据传输的一致性.
大数据、ETL、Kafka、数据仓库、Disruptor
28
TP311.133.1(计算技术、计算机技术)
国家自然科学基金61272543
2018-12-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
26-29