10.3969/j.issn.1006-2475.2018.02.014
文本分类中特征权重算法改进研究
为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法.实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性.
机器学习、文本分类、特征权重、TF-IDF
TP306.1(计算技术、计算机技术)
陕西省科技厅工业攻关项目2017GY-070
2018-06-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
66-70