半监督的文本分类——两阶段协同学习

引用

摘要：

传统的分类器仅使用有标签的数据进行训练,然而,有标签的实例通常因昂贵、耗时而难以获得,从而造成标注瓶颈问题.半监督学习通过大量的无标签数据与有标签数据相结合来创建性能良好的分类器,从而解决标注瓶颈问题.由于半监督的学习需要较少的人工介入,而精确率又较高,因此无论在理论上还是实践上都具有意义.本文在对已有的半监督学习算法进行研究的基础上,针对有标签数据相当少时,无法使用统计方法进行标注置信度评价的情况,提出了基于kNN和SVM的二阶段协同学习,实验证实该方法是有效的.

关键词：半监督学习、文本分类、kNN、SVM、协同学习

所属期刊栏目：30

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金重大项目60736016

在线出版日期：2009-12-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：1921-1926

英文信息展示

期刊专题