DOI：10.3969/j.issn.1000-0135.2007.01.009

用于Web文本分类的快速KNN算法

引用

摘要：

KNN算法是一种简单、有效、非参数的Web文本分类方法.传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性.本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法.FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量.

关键词：KNN、文本分类、相似度

所属期刊栏目：26

分类号：G35(情报学、情报工作)

资助基金：国家自然科学基金60275020

在线出版日期：2007-03-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：60-64

英文信息展示

期刊专题