10.3969/j.issn.1000-7024.2005.06.071
自动文本分类中权值公式的改进
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下.通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式.改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度.
文本分类、TF-IDF、向量空间、特征项、特征权重
26
TP391(计算技术、计算机技术)
2005-07-28(万方平台首次上网日期,不代表论文的发表时间)
共3页
1616-1618