10.3778/j.issn.1673-9418.2011.11.010
利用置信度重取样的SemiBoost-CR分类模型
结合半监督学习和集成学习方法,提出了一种基于置信度重取样的SemiBoost-CR分类模型.给出了基于标注近邻与未标注近邻的置信度计算公式,按照置信度重采样,不仅选取一定比例置信度较高的未标注样本,而且选取一定比例置信度较低的未标注样本,分别以不同的策略加入到已标注的训练样本集,引入置信度高的未标注样本,用以提高基分类器的正确性(accuracy);而引入置信度低的未标注样本,目的则是进一步增加基分类器间的差异性(diversity).对比实验表明,SemiBoost-CR分类模型能够有效提升Naive Bayesian文本分类器的性能.
boosting、半监督分类、朴素贝叶斯、置信度、重取样
5
TP181(自动化基础理论)
The National Natural Science Foundation of China under Grant No.61073133,61175053;the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20070151009
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共9页
1048-1056