10.3969/j.issn.1000-3428.2015.07.039
一种挖掘不确定数据最大模式的深度优先算法
不确定性数据挖掘是数据挖掘领域的研究热点,但其应用于最大频繁项集的算法较少.根据不确定数据挖掘的特点,把挖掘确定性数据最大频繁模式的GenMax算法扩展到不确定数据中,提出一种U-GenMax算法.对Tid集进行扩展,在id域的基础上增加概率域,实现垂直数据格式转换.在频繁项集判断方面加入前置判断来剪枝非频繁项集,相比直接计算置信度的方式,降低了计算量.基于栈式结构给出多步回退剪枝新策略,从而避免GenMax算法只能单步回退的缺陷.实验结果证明,该算法计算性能良好,可适用于各种情况下的稀疏数据集与支持度较高情况下的稠密数据集.
不确定数据、频繁项集、最大模式、垂直格式、剪枝策略、置信度
41
TP18(自动化基础理论)
国家科技部科技支撑计划基金资助项目2011BAK13B05;教育部新世纪优秀人才计划基金资助项目NCET-12-0358;上海市科委科研创新基金资助重点项目12ZZ019;上海市科技计划基金资助项目13JG0500400
2015-09-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
204-209