基于方差分析的χ2统计特征选择改进算法研究
特征选择是中文文本分类的一个重要研究领域,是提高学习算法性能的一个重要手段,也是模式识别中数据预处理的关键步骤。该文对特征提取的定义及其分类进行了深入分析,介绍了几种常用的经典特征选择方法,并针对特征选择研究过程中存在的不足,提出了基于方差分析的χ2统计特征选择改进算法。该算法在引入方差分析思想的基础上,向传统的χ2统计特征选择算法融入特征频数、文档间均衡因子和文档内均衡因子三个元素和一个制约条件,对于提高其性能方面起到很大作用。
特征选择、χ2统计、方法分析
TP311(计算技术、计算机技术)
国家高技术研究发展计划项目编码2012AA101008
2015-06-10(万方平台首次上网日期,不代表论文的发表时间)
共4页
12-15