10.3969/j.issn.1000-0801.2013.12.001
一种基于改进的链式MapReduce的并行ETL应用
介绍了并行ETL的相关工作和常见的处理多MapReduce作业流程的方法;提出一种改进的链式MapReduce框架,并将此框架应用于一个并行ETL工具,同时提出一些针对ETL处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%.
改进的链式MapReduce、ETL、优化规则
29
TP3;TP2
国家自然科学基金资助项目61074128
2014-01-23(万方平台首次上网日期,不代表论文的发表时间)
共8页
1-8