DOI：10.3969/j.issn.1000-1220.2012.10.028

KBAC:一种基于K-means的自适应聚类

引用

摘要：

K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.

关键词：K-means、MapReduce、聚类、社团发现

所属期刊栏目：33

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目61003001,71071098;高等学校博士学科点专项科研基金项目20100071120032

在线出版日期：2013-01-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：2268-2272

英文信息展示

期刊专题