DOI：10.3969/j.issn.1003-3254.2015.04.038

基于Spark的大数据混合计算模型

引用

摘要：

现实世界大数据应用复杂多样，可能会同时包含不同特征的数据和计算，在这种情况下单一的计算模式多半难以满足整个应用的需求，因此需要考虑不同计算模式的混搭使用。混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统，其涵盖了几乎所有典型的大数据计算模式，包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(GraphX)。 Spark提供了一个强大的内存计算引擎，实现了优异的计算性能，同时还保持与Hadoop平台的兼容性。因此，随着系统的不断稳定和成熟， Spark有望成为与Hadoop共存的新一代大数据处理系统和平台。本文详细研究和分析了Spark生态系统，建立了基于Spark平台的混合计算模型架构，并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用。

关键词：大数据、混合计算模式、spark、弹性分布数据集

分类号：TP3;G47

在线出版日期：2015-05-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：214-218

英文信息展示

期刊专题