基于hadoop平台海量数据的快速查询与实现

引用

摘要：

随着互联网技术的发展，人类产生的数据量正在呈指数级增长，Hadoop作为大数据领域的常用工具,在现代生活中发挥着至关重要的作用。Hive是基于Hadoop的一个数据仓库工具，在做查询统计分析时最终翻译成Hadoop平台上的MapReduce程序运行，当数据量不断增大时，就会使得查询效率[5]下降。该文就此提出了一种Hive与Spark结合的方案，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，利用Spark的特性提高Hive查询性能。该研究首先理论阐述了Hive与Spark各自的工作机制，然后介绍Hive_Spark原理，最后通过做实验，对实验结果进行对比，分析，从而验证Hive_Spark提高了查询效率，对大规模数据处理具有一定参考意义。

关键词：Hadoop、Hive、Spark、查询、海量数据

所属期刊栏目：12

分类号：TP31(计算技术、计算机技术)

在线出版日期：2016-09-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：3-5

期刊专题