10.3969/j.issn.1000-3428.2014.08.014
基于列存储的MapReduce并行连接算法
针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法.设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化.使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法.实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性.
大数据、列存储、MapReduce模型、MCF存储格式、并行连接、启发式优化方法
40
TP181(自动化基础理论)
国家自然科学基金资助项目61070031,61070032;浙江省教育厅科研基金资助项目Y201225326
2014-09-15(万方平台首次上网日期,不代表论文的发表时间)
共7页
70-75,85