10.19678/j.issn.1000-3428.0049701
基于差分进化的两阶段文本特征选择算法
为降低文本特征空间维度, 提高数据挖掘处理数据的效率, 提出两阶段文本特征选择算法.结合方差和平均中位数2种方法构建高相关性的特征子集进行初步降维, 并将其作为差分进化算法的初始特征种群.利用特征词的累计词频和文档频率设计适应度函数, 将多个特征差向量和局部最优特征引入变异操作中, 增加特征子集的扰动性, 加快差分进化算法的收敛速度, 获得最优特征子集.在WebKB和Reuters-21578数据集上进行实验, 结果表明, 该算法在准确率、召回率和F1值上均优于TDM5、MADAC等算法, 能够降低文本特征空间的维度, 提高文本聚类效果.
混合特征选择、降维、差分进化算法、方差、平均中位数、文本聚类
45
TP391(计算技术、计算机技术)
国家自然科学基金 61402056
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共8页
303-309,314