10.3969/j.issn.1000-0135.2007.01.009
用于Web文本分类的快速KNN算法
KNN算法是一种简单、有效、非参数的Web文本分类方法.传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性.本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法.FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量.
KNN、文本分类、相似度
26
G35(情报学、情报工作)
国家自然科学基金60275020
2007-03-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
60-64