基于相似中心的k-cmeans文本聚类算法

引用

摘要：

针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法.首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果.实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果.

关键词：聚类、k-cmeans算法、相似性度量、宏平均聚类精度、宏平均召回率

所属期刊栏目：31

分类号：TP301(计算技术、计算机技术)

资助基金：工信部2007电子信息产业发展基金项目工信部运[2007]97号

在线出版日期：2010-06-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1802-1805

英文信息展示

期刊专题