10.3969/j.issn.1000-7024.2014.08.047
基于信息增益的自适应特征选择方法
针对在文本分类中信息增益特征选择方法等比例地组合正相关特征和负相关特征导致分类精度下降的问题,引入比例因子,提出一种自适应的方法。为信息增益添加合适的比例因子,结合经典的朴素贝叶斯算法,自动调节比例因子,使改进的信息增益适用于不同的语料库。实验结果表明,该方法能够为不同数目的特征空间选择较好的比例因子,为不同的文本集选择合适的比例因子,改进的信息增益在平衡数据集和非平衡数据集上的都有较好的分类效果。
文本分类、信息增益、特征选择、比例因子、自适应
TP391(计算技术、计算机技术)
国家863高技术研究发展计划基金项目2011AA01A107
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
2856-2859,2885