基于索引项权重的文本特征选择方法
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法.该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交又熵以及文本证据权.利用KNN分类器在Reuters-21578标准数据集上进行训练和测试.实验结果表明,该方法能够选出有效特征,提高文本分类的性能.
文本分类、特征选择、索引项权重、信息增益、期望交叉熵、文本证据权
31
TP391(计算技术、计算机技术)
国家自然科学基金项目60673186
2010-05-05(万方平台首次上网日期,不代表论文的发表时间)
共3页
1149-1151