10.3969/j.issn.1006-9348.2023.07.063
基于特征优选的软件缺陷预测集成学习方法
软件缺陷预测已经成为软件工程领域一个重要的研究方向,目前对数据集处理的方法存在特征冗余、类不平衡和特征相关性低的情况,很大程度影响了软件缺陷预测模型的分类性能.针对以上问题,对NASA MDP数据集中 8 个数据子集的45943 条特征向量进行研究,提出了基于特征优选的软件缺陷预测集成学习方法.首先,通过合成少数类过采样技术(SMOTE)对少数类样本进行分析并根据少数类样本合成新样本添加到数据集中.然后,通过信息增益(IG)分析数据集的特征属性,并且根据分析结果对特征属性进行选择.最后,使用集成学习算法Stacking构建学习器,其中初级学习器是逻辑回归(LG)和决策树(J48)、次级学习器是朴素贝叶斯(NB),对模型进行十折交叉验证.结果表明,上述模型有效提升了分类性能,与近年基于Stacking构建学习器的结果进行对比,Accuracy平均提升4.65%、F-Measure平均提升 5.25%和AUC平均提升 11.3%.
软件缺陷预测、过采样、信息增益、集成学习
40
TP311(计算技术、计算机技术)
上海市科技创新基金17ZC2461700
2023-08-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
331-336