10.3969/j.issn.1000-7024.2007.24.066
文本分类中基于方差的改进特征提取算法
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果.
文本分类、特征提取、改进TFIDF、权重、方差
28
TP391(计算技术、计算机技术)
重庆市教委科学技术研究项目KJ070802
2008-04-07(万方平台首次上网日期,不代表论文的发表时间)
共3页
6039-6041