10.3969/j.issn.1673-629X.2011.05.021
一种基于SFP树的快速关联规则挖掘算法
对于传统的FP-Growth算法而言,当事务数据库D很大时,构造基于内存的FP树可能是不现实的.针对此问题,提出了一种基于样本事务数据库的SFP算法.该方法对事务数据库D进行随机抽样,得到样本数据库S,此时以比指定的支持度min_sup小的支持度(min_sup')在S中挖掘频繁项集L',根据求得的频繁项集L',在剩余的数据库D-S中求得L'中各事务的支持数,这在大多数情况下就可以求得所有的频繁项集,但是有时可能会漏掉一些.这时可以对D进行二次扫描以发现漏掉的频繁项集.该算法大多数情况下只需要对数据库进行一次扫描,最坏情况下也只需要对数据库进行二次扫描.当把效率放在首位时,比如计算密集事务数据库的频繁项集时,SFP算法尤其合适.
关联规则、频繁项集、FP树、样本事务数据库
21
TP301.6(计算技术、计算机技术)
安徽省自然科学基金项目090412054
2011-09-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
79-82