DOI：10.3969/j.issn.1000-0135.2008.04.010

一种基于k-最近邻的无监督文本分类算法

引用

摘要：

k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感.

关键词：k-最近邻、核密度估计、误差平方和准则、文本分类

所属期刊栏目：27

分类号：TP3;TP1

资助基金：教育部攻关项目数字信息资源的规划、管理与利用研究JZD20050024

在线出版日期：2008-12-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：550-555

英文信息展示

期刊专题