DOI：10.3969/j.issn.1001-3695.2010.03.030

结合LSA的中文谱聚类算法研究

引用

摘要：

传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题.针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验.在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性.

关键词：文本聚类、潜在语义分析、奇异值分解、谱聚类

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

在线出版日期：2010-05-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共2页

页码：917-918

英文信息展示

期刊专题