10.3969/j.issn.1673-629X.2011.01.007
一种基于滑动窗口的流数据聚类算法
在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况.在传统的基于界标模型的聚类算法CluStream中,没有淘汰过期元组,不能准确反映当前数据流的数据分布状况.滑动窗口是数据流中一种关注近期数据的近似方法.为了提高对流数据聚类分析的质量及效率,对算法clustream进行了改进,采用滑动窗口来支持数据处理.为了减少聚类操作中每次迭代的计算次数,算法采用改进的k-means来执行聚类操作.优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果.与聚类算法CluStream相比,优化算法可获得较小的内存开销和快速的数据处理能力,聚类结果更合理清晰.
流数据、聚类、滑动窗口、改进的k-means算法
21
TP311(计算技术、计算机技术)
贵州省科技计划工业攻关基金资助项目黔科合GY字[2008]3035
2011-05-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
23-26