DOI：10.3969/j.issn.1673-629X.2017.07.007

面向流数据的DPFP-Stream算法的设计与实现

引用

摘要：

从海量数据中发现频繁模式一直是数据挖掘研究的热点,在零售市场数据分析、网络监控、网络使用挖掘和股票市场的预测等领域中也有着广泛的应用.尽管在过去的十年里,很多学者提出了许多基于静态数据集的频繁模式挖掘算法,而由于流数据持续、无限、有序而高速产生的特性,在流数据中隐藏的数据知识很可能随着时间的推移而产生变化,因而基于流数据的频繁模式挖掘应不同于以往基于静态数据集的频繁模式挖掘算法.为了更好地分析在线流数据,基于不同的时间粒度从流数据中抽取频繁模式并且监控频繁模式的变化,基于高效的FP-tree结构,借助倾斜时间窗口和MapReduce的思想,提出了针对数据流的频繁模式挖掘算法DPFP-stream.并将该算法在Storm平台上实现,算法数据源采用Kafka,并将中间结果存入内存数据库Redis中.通过大量的实验表明,该算法从高速的数据流中发现频繁模式的效率很高且性能稳定.在海量数据实时计算中,采用该算法,不仅能应对高速的数据流,而且能监控不同时间粒度的频繁模式的变化过程.

关键词：DPFP-stream、MapReduce、Storm、Redis

所属期刊栏目：27

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61302158,61571238

在线出版日期：2017-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：29-33

英文信息展示

期刊专题