基于参考区域的k-means文本聚类算法
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点.针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值.理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率.
文本聚类、k-means、CURD、向量空间模型、参考区域
30
TP391(计算技术、计算机技术)
2009-04-01(万方平台首次上网日期,不代表论文的发表时间)
共4页
401-403,407