一种用于文本聚类的改进的K均值算法

引用

摘要：

K均值算法是聚类分析中使用最为广泛的算法之一.针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进.实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法.

关键词：文本聚类、特征选择、初始化

所属期刊栏目：26

分类号：TP311.13;TP18(计算技术、计算机技术)

资助基金：国家高技术研究发展计划863计划60573097;广东省自然科学基金04300462;05200302

在线出版日期：2006-08-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：73-75

期刊专题