一种频繁模式决策树处理可变数据流
数据流中可能包含大量的无用信息或者噪声,频繁模式挖掘可以去除这些无用信息,且频繁模式比单个属性包含了更多的信息。因此,挖掘频繁的、有区分力的模式,可以用于有效的分类。该文提出一个两步骤算法 PatHT (Pattern-based Hoeffding Tree)生成决策树用于可变数据流分类。第一步,设计增量更新算法 CCFPM(Constraints-based and Closed Frequent Pattern Mining),用于生成闭合约束频繁模式集合 CFPSet(Closed Frequent Pattern Set)。 CCFPM 中采用滑动窗口模型和时间衰减模型处理实例,设计一种均值衰减因子设置方法得到高完整性和准确性的模式集合。第二步,增量更新方法 HTreeGrow(Hoeffding Tree Growing)生成基于 CFPSet 的概念漂移决策树。该方法使用概念漂移检测器监督概念改变,自动调整分类模型。针对高密度和低密度的数据流,设计了不同使用模式集合的方法。在真实和模拟数据流上的实验分析表明,与其他同类算法相比,提出的方法对稳态数据流处理时可以明显提高正确率或可以明显降低训练时间,在处理不同概念漂移特性的可变数据流时也具有很好的分类效果。
分类、可变数据流、决策树、频繁模式挖掘、Hoeffding 树、数据挖掘
39
TP311(计算技术、计算机技术)
国家自然科学基金61563001;国家民委科研基金14BFZ008资助.
2016-08-24(万方平台首次上网日期,不代表论文的发表时间)
共14页
1541-1554