DOI：10.3969/j.issn.1674-6864.2012.03.005

基于改进的潜在语义分析的文本聚类

引用

摘要：

文本聚类中不同文本表示方法获得的聚类效果不尽相同.引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了“词-文本”空间的降维去噪目的.鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响.基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著.

关键词：潜在语义分析、权重计算、奇异值分解、K-means、文本聚类

所属期刊栏目：27

分类号：TP319(计算技术、计算机技术)

资助基金：国家自然科学基金;北京市自然科学基金;北京市教委科技发展计划;国家科技支撑计划

在线出版日期：2012-10-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：21-25

英文信息展示

期刊专题