DOI：10.3969/j.issn.1001-3695.2017.08.006

LSI_LDA:一种混合特征降维方法

引用

摘要：

LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确.针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模.对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%.实验表明提出的LSI_LDA模型在文本分类中有更好的分类性能.

关键词：文本分类、特征降维、潜在语义索引、潜在狄利克雷分配

所属期刊栏目：34

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金青年科学基金资助项目61401185;辽宁省教育厅科学研究一般项目L2013133

在线出版日期：2017-08-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：2269-2273

英文信息展示

期刊专题