DOI：10.3969/j.issn.1673-629X.2015.09.018

Hadoop下的关联规则分析研究

引用

摘要：

Apriori算法是关联规则挖掘中最基本也是最重要的算法之一。但现有的Apriori算法存在对数据库的扫描次数过多，产生了大量的候选项集合，算法执行效率较低，运行时间显著增加等问题。文中针对现有Apriori扫描数据库过于频繁的问题，在Hadoop平台下对Apriori算法进行改进，提出一种改进算法H-Apriori算法。利用并行方法计算频繁项集，该算法将原始数据集按字母排序，减少频繁项集的计算开销，避免反复扫描数据库带来的时间上的消耗，从而提高算法的执行效率。通过与传统Apriori算法的执行时间相比较，实验结果表明，提出的改进算法H-Apriori明显减少了访问数据库的时间，有较高的执行效率。

关键词：关联规则、支持度、置信度、频繁项集

分类号：TP301.6(计算技术、计算机技术)

资助基金：江苏省高校优势学科建设工程资助项目yx002001

在线出版日期：2015-10-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：84-88,93

英文信息展示

期刊专题