基于语义的中文文本聚类最佳簇数研究
分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.
文本聚类、聚类簇数、增量、划分、CTBP
31
TP311(计算技术、计算机技术)
2010-06-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
2034-2036,2100