10.16208/j.issn1000-7024.2018.10.045
结合半监督学习和LDA模型的文本分类方法
针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法.使用LDA主题模型生成主题分布,以表示所有样本;根据训练集中已标记样本,通过一种简化粒子群优化(SPSO)算法获得SSL-LDA自训练模型的最优参数;基于SSL-LDA自训练模型对训练集中一些未标记样本进行标记,扩展训练集;基于扩展后的训练集,训练NB文本分类器.在3个数据集上的实验结果表明,该方法能够很好地应对标记样本较少的情况,获得了较高的分类精确度.
文本分类、半监督学习、LDA主题模型、简化粒子群优化、标记样本扩展
39
TP311(计算技术、计算机技术)
河南省科技厅科技计划基金项目172102210117;河南省驻马店市科技计划基金项目17135
2018-11-06(万方平台首次上网日期,不代表论文的发表时间)
共7页
3265-3271