基于相似性度量的软件缺陷预测训练集推荐

引用

摘要：

在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素.近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点.然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量.基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法.采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐.在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能.实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的.

关键词：软件缺陷预测、训练集选择、跨项目缺陷预测、跨版本缺陷预测

所属期刊栏目：59

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金;江苏省高等学校自然科学研究项目;江苏师范大学自然科学研究基金项目

在线出版日期：2023-05-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：86-94

英文信息展示

期刊专题