10.19678/j.issn.1000-3428.0056714
基于哈希存储与事务加权的并行Apriori改进算法
Apriori算法能够挖掘事物之间的关联关系,但传统Apriori算法每计算一次候选集的支持度,都需要遍历原始事务数据库,多次扫描数据库导致其效率较低.为此,提出一种基于哈希存储与事务加权的改进算法.通过哈希存储的去重特性对事务进行去重,以减少冗余计算.将项目与项集的映射存储到哈希结构中,避免计算候选集的支持度时多次扫描事务数据库.同时开启多个线程,并行计算候选集的支持度,从而提高Apriori算法的运行效率.在开源数据集上的实验结果表明,当数据集中事务条数以及重复事务数越多时,该算法相较于传统Apriori算法的性能提升越明显,其运行时间与FP-Growth算法相近但避免了FP-Growth算法内存占用过大的问题.
关联规则、频繁项集、哈希存储、事务加权、并行计算
46
TP391(计算技术、计算机技术)
国家重点研发计划;贵州省科技重大专项;贵州省公共大数据重点实验室开放课题
2021-01-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
109-116