10.3969/j.issn.1001-3695.2010.12.029
一种基于数据场的K-均值算法
针对K-均值算法在随机选取初始类中心时存在不足、对噪声和孤立点敏感、不适用于发现大小差别很大的类的问题,借鉴分子间的相互作用力模型,将文本模拟成数据场中的数据点,综合考虑文本间的相似度和相异度,提出一个新的数据势值计算公式.根据文本数据的势,剔除孤立点、确定初始类中心.实验结果证明,该算法可以提高收敛速度,消除噪声和孤立点对聚类结果的影响,提高聚类的精度,适用于主题分布不均匀的文本集.
K-均值、分子间相互作用力、数据场、文本聚类
27
TP391(计算技术、计算机技术)
2011-01-28(万方平台首次上网日期,不代表论文的发表时间)
共4页
4498-4501