DOI：10.3969/j.issn.1673-629X.2019.04.014

基于改进的K-means算法在文本挖掘中的应用

引用

摘要：

K-means算法具有简单易于理解的特征,广泛运用于聚类过程中,但是其初始聚类中心是随机确定的,这样极容易导致聚类结果的稳定性很差.针对传统K-means算法对于初始聚类中心选择的敏感性及最大最小距离法容易选取离散点的不足,提出了一种新的聚类中心选择评判函数,依次考察每个点的函数值,选取当前函数值最大的点作为新的聚类中心,直到满足事先确定的聚类中心数.新聚类中心评判函数既可以保证新中心点周围是紧凑的,又可以保证远离其他中心点.最后将该算法运应用于文本聚类之中,根据准确率、召回率及F度量值来衡量算法的聚类质量.实验结果表明,该算法相对于传统算法和最大最小距离算法,准确率更高,聚类质量更好,较适合于文本聚类.

关键词：K-means算法、聚类中心、文本聚类、文本距离、稀疏度

所属期刊栏目：29

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家"863"高技术发展计划项目2006AA01Z201

在线出版日期：2019-05-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：68-71

英文信息展示

期刊专题