10.3772/j.issn.1000-0135.2013.01.009
文本分类中基于训练样本空间分布的K近邻改进算法
KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.
K最近邻、类偏斜、样本剪裁、文本分类
32
TP3;TP1
国家自然科学基金资助项目直觉模糊聚类理论及其应用,71071161
2013-03-27(万方平台首次上网日期,不代表论文的发表时间)
共6页
80-85