基于密度峰值的改进K-Means文本聚类算法及其并行化

引用

摘要：

针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法.实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比.

关键词：文本聚类、密度峰值、MapReduce、K均值聚类算法

所属期刊栏目：65

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金61877002;北京市自然科学基金4162019

在线出版日期：2019-11-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：457-464

英文信息展示

期刊专题