基于样本条件价值改进的Co-training算法
Co-training是一种主流的半监督学习算法.该算法中两视图下的分类器通过迭代的方式,互为对方从无标记样本集中挑选新增样本,以更新对方训练集.Co-training以分类器的后验概率输出作为新增样本的挑选策略,该策略忽略了样本对于当前分类器的价值.针对该问题,本文提出一种改进的Co-training式算法—CVCOT (Conditional value-based co-training),即采用基于样本条件价值的挑选策略来优化Co-training.通过定义无标记样本的条件价值,各视图下的分类器以样本条件价值为依据来挑选新增样本,以此更新训练集.该策略既可保证新增样本的标记可靠性,又能优先将价值较高的富信息样本补充到训练集中,可以有效地优化分类器.在UCI数据集和网页分类应用上的实验结果表明:CVCOT具有较好的分类性能和学习效率.
机器学习、半监督学习、Co-training、富信息样本、条件价值
39
国家自然科学基金61173087,61073128;黑龙江省自然科学基金F201021;National Natural Science Foundation of China61173087,61073128;Natural Science Foundation of Heilongjiang ProvinceF201021
2013-12-05(万方平台首次上网日期,不代表论文的发表时间)
共9页
1665-1673