10.3969/j.issn.1672-9722.2016.04.029
基于 Dpark 的数据分析方法的性能研究磁
随着大数据时代的来临,以 Hadoop 和 Spark 为首的开源分布式计算框架主导着相关行业的事实标准。然而,无论是使用 Java 编写的 Hadoop ,还是使用 Scala 编写的 Spark ,使用及对其进行二次开发的难度都比较大,而使用 Py‐thon 编写的分布式计算框架 Dpark ,具有继承自 Spark 的内存计算和惰性求值机制,结合 Python 的简洁语法,同时又配合分布式文件系统 MooseFS 、分布式数据库 Beansdb 和分布式资源调度框架 Mesos ,可以极大提高数据分析的工作效率。文章主要对比了传统 Python 程序和基于 Dpark 的 Python 程序在完成数据预处理工作上的运行效率,得出后者的性能和可扩展性至少优于前者数十倍的结论。
Dpark 框架、集群部署、数据预处理
44
TP311.5(计算技术、计算机技术)
个性化推荐技术的研究与应用编号联科合20141101;贵州省科学技术基金项目编号黔科合 J 字[2010]2100号;贵州大学博士基金编号贵大人基合字2009029号资助。
2016-06-01(万方平台首次上网日期,不代表论文的发表时间)
共4页
691-693,771