一种基于参考点和密度的快速聚类算法

引用

摘要：

数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering using references and density)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处理任意形状的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的基于R*-树的DBSCAN算法.

关键词：聚类、密度、高维、参考点、数据挖掘

所属期刊栏目：14

分类号：TP181(自动化基础理论)

资助基金：国家高技术研究发展计划863计划2002AA483440;国家重点基础研究发展计划973计划G1999032705;北京大学校科研和教改项目

在线出版日期：2004-01-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1089-1095

英文信息展示

期刊专题