DOI：10.3969/j.issn.1009-3044.2009.36.184

基于不平衡数据集的文本分类技术

引用

摘要：

文本自动分类是信息检索和数据挖掘领域的研究热点和核心技术,但是在实际应用中,经常会出现文本实例中一些类中欧冠的文本很多,而另一些类中的文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,这就是所谓的文本分类不平衡问题.传统方法对少数类的识别率低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题.因此,该文针对提高不平衡数据集中的少数类文本的分类性能之一问题,从数据层面处理的角度对数据进行重抽样.使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能.

关键词：不平衡数据集、文本、分类

所属期刊栏目：5

分类号：TB565(声学工程)

在线出版日期：2010-03-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：10571-10572,10589

英文信息展示

期刊专题