基于LSI/SVD的文本分类方法研究

引用

摘要：

论文通过分析传统向量空间模型(VSM)的信息检索模式和讨论基于特征项-文本矩阵的特征项赋权因子(TF-IDE)的赋值问题,提出以潜在语义索引/奇异值分解(LSI/SVD)方法为基础,采用文本相似度描述特征项语义间的联系,运用截断法来降低特征项-文本矩阵原始向量空间维数,解决特征项之间存在语义缺乏约束及向量空间维数过大的问题.仿真实验表明,该方法相对于传统向量空间模型更加高效实用.

关键词：向量空间模型、信息检索、潜在语义索引/奇异值分解、特征项赋权因子

所属期刊栏目：25

分类号：TP391(计算技术、计算机技术)

在线出版日期：2014-07-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：10-12

英文信息展示

期刊专题