基于语义的中文文本聚类最佳簇数研究

引用

摘要：

分析了聚类数目的确定对大样本数据聚类效果的影响,对目前聚类质量衡量指标的几个主要流行观点进行了剖析.利用文本相似度的概念对文本语义最佳聚类数问题进行了研究,提出了一种基于聚类过程的丈本最佳聚类数算法CTBP,其主要思想是在文本向量集的每个文本向量中抽取出一个词汇,按相似度有序排列,用增量逐层划分以得到最优划分所对应的簇类数.这样通过扫描一遍数据就可以获得多个统计信息,最后求出最优解.实验结果表明了该算法的高质量和高效率.

关键词：文本聚类、聚类簇数、增量、划分、CTBP

所属期刊栏目：31

分类号：TP311(计算技术、计算机技术)

在线出版日期：2010-06-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2034-2036,2100

英文信息展示

期刊专题