基于类别分布差异和VPRS特征选择的文本分类方法
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤.该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM:接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现.最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率.
文本分类、特征过滤、权值计算、特征选择、可变精度粗糙集
29
TP391(计算技术、计算机技术)
2008-04-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
2880-2884