10.13682/j.issn.2095-6533.2015.06.017
一种改进的文本特征提取算法
针对特征提取忽略特征项语义问题,提出一种基于潜在狄利克雷分配模型(LDA)改进的特征提取算法.该算法基于文档的潜在主题分布,将文档转换为隐含主题与主题下的单词分布按特定比例组成的集合,通过一定的概率选中某个主题,并从该主题下以一定的概率选中某个词语来生成一篇文档.同时,针对LDA算法"平等"对待所有特征项的情况,对LDA模型进行高斯加权.实验结果表明,该算法相比TF-IDF算法、信息增益法,能够提取更多的有效特征,使得分类准确率有所提高.
文本分类、特征提取、潜在狄利克雷、支持向量机
20
TP391(计算技术、计算机技术)
西安市科技计划资助项目CXY14378
2015-12-15(万方平台首次上网日期,不代表论文的发表时间)
共4页
79-81,120