10.3969/j.issn.1000-0135.2005.06.006
基于粗集和决策树的Web文本分类规则抽取
本文根据CHI值原理、粗集理论和决策树原理,提出了一种抽取Web文本分类规则的新方法.决策树分类方法具有出色的数据分析效率和容易抽取、易于理解的分类规则等优势,但对于维数达成千上万维的分类问题很难应用.因此本文先根据CHI值选择每个文本类中对分类贡献大的若干词条,然后采用粗集理论方法对选择的特征进行进一步提取,这样得到维数较小的文本特征向量空间,最后再使用决策树进行分类,从而既保证了分类精度又可很容易地抽取出利于理解的文本分类规则.
特征提取、CHI值、粗集理论、决策树
24
G35(情报学、情报工作)
中国科学院资助项目60275020
2006-04-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
674-678