一种用于文本聚类的改进的K均值算法
K均值算法是聚类分析中使用最为广泛的算法之一.针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进.实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法.
文本聚类、特征选择、初始化
26
TP311.13;TP18(计算技术、计算机技术)
国家高技术研究发展计划863计划60573097;广东省自然科学基金04300462;05200302
2006-08-24(万方平台首次上网日期,不代表论文的发表时间)
共3页
73-75