10.3969/j.issn.1000-3428.2010.17.012
基于文档频率的特征选择方法
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题.针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器.实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能.
文本分类、特征选择、文档频率、词频率、支持向量机
36
TP18(自动化基础理论)
陕西省自然科学基金资助项目2009jm8003-1
2010-10-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
33-35,38