基于近邻密度和半监督KNN的集成自训练方法

引用

摘要：

针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法.该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围k个近邻样本成为已标注候选集.这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构.同时在已标注样本候选集中选取密度最大的样本作为已标注样本.为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性.

关键词：集成自训练、近邻密度、半监督、K近邻(KNN)

所属期刊栏目：54

分类号：TP181(自动化基础理论)

资助基金：重庆市科委科研项目cstc2014jcyjA40011;重庆市自然科学基金cstc2014jcyjA40011;重庆市科研项目CYS17176;重庆师范大学科研项目YKC17001

在线出版日期：2018-11-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：132-138

期刊专题