10.3969/j.issn.1672-9722.2013.03.039
基于信息增益的文本特征选择方法
论文提出了一种基于信息增益改进的信息增益文本特征选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明论文选取的特征子集具有更好的分类能力.
特征选择、文本分类、信息增益
41
TP391(计算技术、计算机技术)
2013-07-04(万方平台首次上网日期,不代表论文的发表时间)
共3页
460-462