分布式数据流聚类算法
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream.该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性.由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型.仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量.
分布式数据流、聚类、基于密度、基于模型、数据挖掘
32
TP311(计算技术、计算机技术)
国家863高技术研究发展计划基金项目2008AA011001
2011-12-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
2708-2711,2763