DOI：10.3969/j.issn.1673-629X.2018.06.018

基于Spark的密度聚类算法并行化研究

引用

摘要：

聚类分析目前是数据挖掘研究领域中热门的研究课题,DBSCAN算法则是聚类分析中较为重要的一种基于密度的算法.Apache Spark扩展了广泛使用的MapReduce计算模型,提出了基于内存的并行计算框架.通过将中间结果缓存在内存中减少I/O磁盘操作,使其能够更高效地支持交互式查询、迭代式计算等多种计算模式.为了更好地进行大数据聚类挖掘,研究如何对基于当今主流的大数据处理框架Spark对DBSCAN算法进行并行化.设计了基于Spark的DBSCAN算法并行化方案,通过合理利用RDD和设计Sample算子、map函数、collectAsMap算子、reduceByKey算子,实现了对寻找核心对象的密度可达数据点过程的并行化.在Spark平台上运用DBSCAN算法对UCI的Wine数据集、Car Evaluation数据集和Adult数据集的并行化聚类结果表明,并行化的DBSCAN算法具有较好的准确性和时效性,适用于大数据聚类.

关键词：DBSCAN、聚类、Spark、并行化

所属期刊栏目：28

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金61302158,61571238

在线出版日期：2018-07-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：80-84

英文信息展示

期刊专题