结合ODF和辨识集的特征选择
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.
特征选择、文档频、粗糙集、辨识集、属性约简
22
TP301(计算技术、计算机技术)
四川省科技计划项目2008GZ0003;四川省科技厅科技攻关项目07GG006-014
2010-04-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
94-98,107