10.3778/j.issn.1673-9418.1509018
文本分类中基于熵的词权重计算方法研究
随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要.为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一.研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency & inverse document frequency),它们可能表现较差.于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法.通过在TanCorp、WebKB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能.实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定.
特征词权重、熵加权、文本分类、类别区分力
10
TP391(计算技术、计算机技术)
The National Natural Science Foundation of China under Grant No.61379109;the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20120162110077
2016-11-04(万方平台首次上网日期,不代表论文的发表时间)
共11页
1299-1309