10.11959/j.issn.1000-0801.2015100
大数据中效用挖掘的快速单阶段算法
现有数据挖掘算法的缺点是在挖掘大数据时会出现大量候选模式,从而造成可伸缩性瓶颈,个别算法虽然不生成候选模式,但是计算代价高昂,缺乏有效剪裁,运行效率存在瓶颈.为此,提出一个全新的单阶段不生成候选模式的数据挖掘算法,其创新性有3点:一是基于前缀生长的模式枚举和基于效用上限值评估的剪裁策略;二是基于稀疏矩阵和虚拟投影的效用信息表达;三是节省存储空间的深度优先搜索方法.大量实验表明,新算法的时间效率比现有算法高5倍以上,并且内存使用量比现有算法少20%~60%,可伸缩性高.
大数据、效用挖掘、高效用模式、频繁模式
31
国家自然科学基金资助项目61272306;浙江省自然科学基金资助项目LY12F02024;The National Natural Science Foundation of China61272306;The Zhejiang Provincial Natural Science Foundation of ChinaLY12F02024
2015-06-08(万方平台首次上网日期,不代表论文的发表时间)
共9页
77-85