DOI：10.3772/j.issn.1000-0135.2013.01.009

文本分类中基于训练样本空间分布的K近邻改进算法

引用

摘要：

KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.

关键词：K最近邻、类偏斜、样本剪裁、文本分类

所属期刊栏目：32

分类号：TP3;TP1

资助基金：国家自然科学基金资助项目直觉模糊聚类理论及其应用,71071161

在线出版日期：2013-03-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：80-85

英文信息展示

期刊专题