10.3969/j.issn.1673-4785.2014.03.011
基于无标记Web数据的层次式文本分类
传统的文本分类方法需要标注好的语料来训练分类器,然而人工标记语料代价高昂并且耗时。对此,通过无类别标记的Web数据来训练文本分类器,提出一种基于无标记Web数据的层次式文本分类方法,该方法结合类别知识和主题层次信息来构造Web查询,从多种Web数据中搜索相关文档并抽取学习样本,为监督学习找到分类依据,并结合层次式支持向量机进行分类器的学习。实验结果表明,该方法能够利用无标记Web数据学习分类器,并取得了较好的分类效果,其性能接近于有标记训练样本的监督分类方法。
层次式文本分类、主题层次、无标记数据分类、支持向量机
TP181(自动化基础理论)
国家“863”计划资助项目2010AA012505,2011AA010702,2012AA01A401,2012AA01A402;国家重点基础研究发展计划资助项目2013CB329601,2013CB329602;国家自然科学基金资助项目60933005,91124002;国家科技支撑计划资助项目2012BAH38B04;国家242信息安全计划资助项目2011A010.
2014-07-23(万方平台首次上网日期,不代表论文的发表时间)
共6页
330-335