10.3321/j.issn:0253-987X.2006.08.013
分布式全局频繁项目集的快速挖掘方法
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树 ,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明, 所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.
数据挖掘、分布式数据库、全局频繁项目集、被约束子树
40
TP311(计算技术、计算机技术)
中国科学院资助项目60542004
2006-09-11(万方平台首次上网日期,不代表论文的发表时间)
共5页
923-927