DOI：10.3969/j.issn.1006-2475.2018.02.014

文本分类中特征权重算法改进研究

引用

摘要：

为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法.实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2％,结合不同特征选择算法,F1值平均提升2.75％,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性.

关键词：机器学习、文本分类、特征权重、TF-IDF

分类号：TP306.1(计算技术、计算机技术)

资助基金：陕西省科技厅工业攻关项目2017GY-070

在线出版日期：2018-06-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：66-70

英文信息展示

期刊专题