10.3969/j.issn.1673-629X.2010.12.032
基于模糊C均值和改进的LSA的文档聚类研究
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.
模糊C均值、LSA、文档聚类
20
TP391.1(计算技术、计算机技术)
2011-03-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
126-129,136