DOI：10.3969/j.issn.1000-3428.2018.04.006

面向海量数据的改进最近邻优先吸收聚类算法

引用

摘要：

针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法.通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进.采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析.

关键词：海量数据、聚类、MapReduce框架、最近邻优先吸收聚类算法、Canopy算法、并行化

所属期刊栏目：44

分类号：TP391(计算技术、计算机技术)

资助基金：浙江省信息安全重点实验室基金KYZ066816004

在线出版日期：2018-11-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：35-40

英文信息展示

期刊专题