10.3969/j.issn.1000-3428.2011.01.006
基于信息增益的文本特征权重改进算法
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异时特征权重计算结果的影响,降低文本表示的准确性.针对以上问题,提出一种改进的特征权重计算方法tf.ig igc.该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足.实验结果表明,与tf.idf.ig和tf.idf.igc2种特征权重计算方法相比,tf.ig.igc在计算特征权重时更加有效.
特征分布、特征加权、文本分类
37
TP391(计算技术、计算机技术)
中国博士后科学基金资助项目20090461425;江苏省博士后科研计划基金资助项目0901014B
2011-04-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
16-18,21