DOI：10.3969/j.issn.1000-3428.2012.15.012

基于Map Reduce的序列模式挖掘算法

引用

摘要：

传统数据挖掘算法在处理海量数据集时计算能力有限.为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan.在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间.采用Reduce函数对中间结果进行规约,得到全局序列模式.在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性.

关键词：云计算、并行处理、Map Reduce模型、PrefixSpan算法、序列模式、Hadoop平台

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目60873247;山东省自然科学基金资助项目ZR2009GZ007

在线出版日期：2012-11-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：43-45

英文信息展示

期刊专题