10.3969/j.issn.1673-629X.2015.09.018
Hadoop下的关联规则分析研究
Apriori算法是关联规则挖掘中最基本也是最重要的算法之一。但现有的Apriori算法存在对数据库的扫描次数过多,产生了大量的候选项集合,算法执行效率较低,运行时间显著增加等问题。文中针对现有Apriori扫描数据库过于频繁的问题,在Hadoop平台下对Apriori算法进行改进,提出一种改进算法H-Apriori算法。利用并行方法计算频繁项集,该算法将原始数据集按字母排序,减少频繁项集的计算开销,避免反复扫描数据库带来的时间上的消耗,从而提高算法的执行效率。通过与传统Apriori算法的执行时间相比较,实验结果表明,提出的改进算法H-Apriori明显减少了访问数据库的时间,有较高的执行效率。
关联规则、支持度、置信度、频繁项集
TP301.6(计算技术、计算机技术)
江苏省高校优势学科建设工程资助项目yx002001
2015-10-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
84-88,93