混合采样与遗传算法相结合的垃圾网页检测
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19郾25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.
垃圾网页检测、混合采样、集成分类、遗传算法、极端梯度算法
42
TP181(自动化基础理论)
国家重点研发计划项目2017YFC1307705
2020-03-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
111-117