10.19927/j.cnki.syyt.2021.02.028
大数据Hadoop框架核心技术对比与实现
大数据技术平台有很多,最为流行的是Hadoop生态系统,而Hadoop生态系统涉及的技术繁杂,最为核心是HDFS和MapReduce,前者实现的是分布式存储,后者实现的分布式并行处理,而后又出现了Spark、Hive、Pig等技术,给很多初学者理解和掌握大数据平台造成了困难.为了帮助区分这些技术的用途、优势以及之间的关联性,选择合适技术来解决大数据的计算和存储问题.以经典的WordCount程序为例,在伪分布式集群上使用不同的技术来实现该程序,且易于被还原,通过对实验流程、核心代码、适用场景进行分析研究,总结每种技术的优势和特点,理顺大数据关键技术之间的关系.
WordCount程序、Hadoop系统、分布式计算
40
TP311(计算技术、计算机技术)
江苏省高校自然科学研究面上项目;江苏省高等学校大学生创新创业训练计划项目;2019年度泰州市科技支撑社发项目
2021-03-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
145-148,176