10.3969/j.issn.1007-2861.2015.04.020
大规模数据集聚类的K邻近均匀抽样数据预处理算法
为解决基于密度的聚类算法处理大规模数据集效率低和存储开销大的问题,提出一种分片的基于K邻近关系的空间均匀抽样算法作为聚类应用的数据预处理过程,将数据集分片,按密度降序方式去除数据集中部分样本的K邻居,将剩余样本作为抽样样本,在保证精度的同时,可以降低数据规模,提升计算效率.实验结果表明,在数据规模较大且保证聚类结果准确性的前提下,通过降低聚类数据规模,可以有效提升聚类效率.
密度降序、K邻近、空间均匀抽样、聚类
22
TP391(计算技术、计算机技术)
上海市教委重点学科资助项目12ZZ09;上海市科委资助项目13DZ118800
2016-03-31(万方平台首次上网日期,不代表论文的发表时间)
共8页
28-35