10.3772/j.issn.1000-0135.2011.04.001
基于信息粒度的交叠类文本分类方法
从信息粒度的角度分析了文本分类中出现样本错分的原因,同时结合人类认知方式,提出一种基于信息粒度的交叠类文本分类方法.新方法通过转换描述训练样本集合的粒度空间,对训练样本进行重新划分,加大训练样本之间的差异性,以此增加分类的先验知识;根据人类认知方式的特点,在划分后的训练样本集合上构建层次分类器进行分类.实验中采用了不同领域、不同类型的语料库,定量分析了类交叠程度对分类性能的影响并对新方法进行了测试.实验结果表明,新方法能够有效地提高分类性能,尤其适合于类交叠程度较高的情况.
信息粒度、文本分类、认知方式
30
TP3;TP1
国家863项目”网络舆情态势分析与预警关键技术研究”基金
2011-08-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
339-346