10.3772/j.issn.1000-0135.2009.06.006
文本分类中一种基于密度的KNN改进方法
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果.
tf-idf、文本分类、KNN算法、特征降维
28
TP3;TP1
基金项目:国家自然科学基金资助项目70571087
2009-12-22(万方平台首次上网日期,不代表论文的发表时间)
共5页
834-838