10.3969/j.issn.1005-2992.2013.06.015
基于主成分分析和KNN混合方法的文本分类研究
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。
主成分分析、降维、KNN算法、文本分类
TP391(计算技术、计算机技术)
国家自然科学基金项目11226263,11201057,61202261;吉林省自然科学基金项目201215165
2014-01-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
60-63