10.16208/j.issn1000-7024.2017.09.047
基于隐性语义索引的多标签文本分类集成方法
针对多标签文本分类的概念歧义和底层语意结构问题,提出一种集成分类方法,将随机森林(RF)算法和隐性语义索引(LSI)有机结合在一起.通过词汇的随机分割增加集成的多样性,获得低维隐性语义空间的不同正交投影,在低维空间的正交投影基础上执行LSI.随机森林可以有效解决二进制分类问题,隐性语义揭示了文本的底层语义结构,两者结合可代表群体的多样性和个体准确性.Yahoo数据集上的实验结果验证了该方法的有效性,其在汉明损失、覆盖度、首位误差和平均精度方面优于其它方法.
文本分类、随机森林、多标签、正交投影、隐性语义索引
38
TP391(计算技术、计算机技术)
2017-10-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
2556-2561