10.3969/j.issn.1000-3428.2013.12.052
基于倾斜分布的变流速数据流聚类算法
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR-Stream。采用网格单元作为数据点的聚集形式,以基于R-tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集 KDD-CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。
数据流、聚类、时态密度、倾斜分布、剪枝、变流速
TP18(自动化基础理论)
2013-12-30(万方平台首次上网日期,不代表论文的发表时间)
共5页
247-250,259