DOI：10.3969/j.issn.1673-629X.2014.09.029

用于文本分类的特征项权重算法改进

引用

摘要：

TF-IDF算法是文本分类中一种常用的权重计算方法，但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率，没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法，此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素，能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性，实验结果表明该算法优于TF-IDF算法，能较好地提高文本分类的准确率。

关键词：文本分类、特征项、权重、改进

分类号：TP301(计算技术、计算机技术)

资助基金：湖南省教育科技计划项目07D036;湖南省教育厅、财政厅联合资助项目12C1056

在线出版日期：2014-09-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：128-132

英文信息展示

期刊专题