一种基于聚类密度的文本分类算法研究

引用

摘要：

在现代信息技术领域,如何快速、准确和全面地找到用户真正所需要的信息,已经成为该领域的研究重点.在文本分类的理论基础之上,文章针对KNN算法存在的不足,设计了一种基于聚类密度的文本分类算法,通过计算待分类文本的相似度及其权重值的大小判断待分类文本的所属类别.并通过3个实验对该分类算法进行了验证,实验结果表明,基于聚类密度的分类算法在不同特征选择方法、不同特征词数下的分类效果都优于KNN分类算法,同时证明在多种相似度算法中,Jensen-Shannon散度更适合聚类密度算法.

关键词：文本分类、向量空间模型、K最近邻算法、聚类密度

分类号：TP391.1;I0;R192.3

资助基金：国家社会科学基金12CTQ003

在线出版日期：2016-08-15（万方平台首次上网日期，不代表论文的发表时间）

页码：74-83

期刊专题