面向实时海量数据流的数据聚类
针对海量实时数据流,提出了一种基于密度和网格划分相结合的聚类算法。首先对数据空间进行划分,判断每个单元格中数据点的属性。如果单元格内数据点密度高于阈值,则判定这些点为核心点;否则,根据单元格邻居内数据点的数量对数据点进行再次判断,以确定单元格内的数据点是边界点还是噪声点。算法克服了基于密度的算法运行效率低的缺点,又弥补了基于网格的算法精度较低的不足。通过实验验证了算法的效率和性能,并与经典的DBSCAN和CLIQUE算法进行了对比分析。最后分析了算法在面向海量实时数据流方面所具有的优势,并提出了进一步的研究方向。
异常检测、聚类分析、密度聚类、网格聚类、海量数据流
39
TP274(自动化技术及设备)
国家自然科学基金项目61403328,61572419;山东省自然科学基金项目ZR2013FM011
2016-10-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
114-119