DOI：10.3969/j.issn.1001-3695.2010.12.029

一种基于数据场的K-均值算法

引用

摘要：

针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式.根据文本数据的势,剔除孤立点、确定初始类中心.实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集.

关键词：K-均值、分子间相互作用力、数据场、文本聚类

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

在线出版日期：2011-01-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：4498-4501

英文信息展示

期刊专题