10.3969/j.issn.1000-3428.2012.15.012
基于Map Reduce的序列模式挖掘算法
传统数据挖掘算法在处理海量数据集时计算能力有限.为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan.在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间.采用Reduce函数对中间结果进行规约,得到全局序列模式.在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性.
云计算、并行处理、Map Reduce模型、PrefixSpan算法、序列模式、Hadoop平台
38
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60873247;山东省自然科学基金资助项目ZR2009GZ007
2012-11-16(万方平台首次上网日期,不代表论文的发表时间)
共3页
43-45