DOI：10.3969/j.issn.1000-3428.2014.03.012

基于Hadoop平台的事实并行处理算法

引用

摘要：

针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题，从事实表查找代理键和多粒度事实预聚合2个角度出发，提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况，运用分布式缓存方法将小维度表复制到各个数据节点的内存中，同时对事实数据和大维度数据采用相同的分区函数进行分区，从而解决内存不足的问题，在Map阶段实现多路查找代理键，避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段，可有效解决事实数据按照不同粒度进行聚合的问题。实验结果表明，与Hive数据仓库相比，2种算法在并行处理数据仓库的事实数据的问题上具有更高的处理效率。

关键词：MapReduce模型、维度、事实、代理键、并行查找、聚合

分类号：TP311(计算技术、计算机技术)

在线出版日期：2014-04-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：59-62,81

英文信息展示

期刊专题