文本分类中基于熵的词权重计算方法研究

引用

摘要：

随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要.为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一.研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency & inverse document frequency),它们可能表现较差.于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法.通过在TanCorp、WebKB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能.实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定.

关键词：特征词权重、熵加权、文本分类、类别区分力

所属期刊栏目：10

分类号：TP391(计算技术、计算机技术)

资助基金：The National Natural Science Foundation of China under Grant No.61379109;the Specialized Research Fund for the Doctoral Program of Higher Education of China under Grant No.20120162110077

在线出版日期：2016-11-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1299-1309

英文信息展示

期刊专题