10.16451/j.cnki.issn1003-6059.201701001
基于聚类假设的数据流分类算法
获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.
概念漂移、数据流、分类、聚类
30
TP311(计算技术、计算机技术)
福建省自然科学基金项目No.2016J01280资助 Supported by Natural Science Foundation of Fujian Province2016J01280
2017-03-15(万方平台首次上网日期,不代表论文的发表时间)
共10页
1-10