一种基于参考点和密度的快速聚类算法
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering using references and density)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处理任意形状的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的基于R*-树的DBSCAN算法.
聚类、密度、高维、参考点、数据挖掘
14
TP181(自动化基础理论)
国家高技术研究发展计划863计划2002AA483440;国家重点基础研究发展计划973计划G1999032705;北京大学校科研和教改项目
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
1089-1095