基于Linux平台下的Hadoop和Spark集群搭建研究

引用

摘要：

随着云计算的兴起,大数据受到越来越多的关注.为了将数据信息进行专业化处理,引进了Hadoop和Spark等大数据框架.其中Hadoop是最流行的处理平台,它主要解决了数据存储和分布式计算的问题,而Spark是基于Hadoop中的分布式文件系统和Hadoop Yarn进行计算.Hadoop和Spark的结合可以更好地提高计算速率和数据性能.该文首先介绍了Hadoop和Spark的特点,然后对分布式集群的搭建进行研究并实现,给出了搭建步骤并完成了对集群的验证.

关键词：Hadoop、Spark、分布式

所属期刊栏目：16

分类号：TP311(计算技术、计算机技术)

在线出版日期：2020-09-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：207-208,221

期刊专题