DOI：10.3969/j.issn.1008-0570.2009.21.058

优化初始值的K均值中文文本聚类

引用

摘要：

文本聚类是中文文本挖掘中的一种重要分析方法.K均值聚类算法是目前最为常用的文本聚类算法之一.但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感.本文针时这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心.实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果.

关键词：文本聚类、K均值、初始值优化

所属期刊栏目：25

分类号：TP391.1(计算技术、计算机技术)

在线出版日期：2009-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：142-144

英文信息展示

期刊专题