基于改进FP-tree的最大频繁项目集挖掘算法
针对已有算法为了减少PF-tree中路径被重复遍历的次数,需要保存FP-tree中所有频繁1-项集的条件模式基的问题,对FP-tree的数据结构进行修改,使得只需要保存FP-tree中每个叶子节点的父节点到根节点路径上项目组成的条件模式基,降低了保存条件模式基的存储空间开销.在分析最大频繁项目集挖掘算法中搜索空间以及数据表示方法的基础上,通过理论分析和证明,设计了剪枝策略和压缩策略,缩小了算法搜索空间,压缩了FP-tree的规模,提高了算法的执行效率.最后将新算法分别与NHTFPG算法、FpMAX算法进行对比,验证算法的正确性和有效性.实验结果表明,新算法保存FP-tree条件模式基所需要的存储空间不到NHTFPG算法的50%,执行效率比FpMAX算法提高了2~3倍.
频繁项目集、最大频繁项目集、条件模式基、项头表、剪枝策略、压缩策略
32
TP311.13(计算技术、计算机技术)
安徽省高校省级自然科学研究项目KJ2010B421,KJ2011Z276;安徽省高校省级优秀青年人才基金项目2010SQRL137,2011SQRL123
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共4页
326-329