10.3778/j.issn.1673-9418.1608039
大数据分类挖掘算法及其概念漂移应用研究
随着大数据应用研究的不断深入和分布式机器学习中流计算框架的涌现,针对数据流中概念漂移问题的研究是面向大数据挖掘领域的研究热点之一.现有的针对概念漂移的研究成果主要还是依赖于数据结构和算法优化,通过计算资源有限的独立计算机完成概念漂移的检测.为此,提出一种面向大数据的基于Storm的抵抗概念漂移的分类挖掘算法S-CVFDT(Storm-concept very fast decision tree)及系统.该系统采用并行化窗口和S-CVFDT算法,利用并行化窗口机制检测数据流中的突变型概念漂移,从而自适应地改变并行窗口大小,并通过S-CVFDT算法不断更新渐进性概念漂移时的模型.分析与实验结果表明,该算法可以快速有效地检测到突变型概念漂移,降低系统因为突变型概念漂移造成的资源浪费,且模型建立效率、分类精度得到提高.
大数据、数据挖掘、分类算法、概念漂移
10
TP393(计算技术、计算机技术)
The Youth Fund of Natural Science Foundation of Jiangsu Province under Grant No.BK20130876;the Research Foundation of Nanjing College of Information Technology under Grant No.YK20140402
2017-02-24(万方平台首次上网日期,不代表论文的发表时间)
共10页
1683-1692