DOI：10.3969/j.issn.1672-9722.2016.04.029

基于 Dpark 的数据分析方法的性能研究磁

引用

摘要：

随着大数据时代的来临，以 Hadoop 和 Spark 为首的开源分布式计算框架主导着相关行业的事实标准。然而，无论是使用 Java 编写的 Hadoop ，还是使用 Scala 编写的 Spark ，使用及对其进行二次开发的难度都比较大，而使用 Py‐thon 编写的分布式计算框架 Dpark ，具有继承自 Spark 的内存计算和惰性求值机制，结合 Python 的简洁语法，同时又配合分布式文件系统 MooseFS 、分布式数据库 Beansdb 和分布式资源调度框架 Mesos ，可以极大提高数据分析的工作效率。文章主要对比了传统 Python 程序和基于 Dpark 的 Python 程序在完成数据预处理工作上的运行效率，得出后者的性能和可扩展性至少优于前者数十倍的结论。

关键词：Dpark 框架、集群部署、数据预处理

所属期刊栏目：44

分类号：TP311.5(计算技术、计算机技术)

资助基金：个性化推荐技术的研究与应用编号联科合20141101；贵州省科学技术基金项目编号黔科合 J 字[2010]2100号；贵州大学博士基金编号贵大人基合字2009029号资助。

在线出版日期：2016-06-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：691-693,771

英文信息展示

期刊专题