基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测

引用

摘要：

近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码.随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担.研究人员尝试利用机器学习方法开展克隆代码一致性维护需求预测研究,通过预测克隆代码的变化是否会导致额外的维护代价,来帮助软件质量保障团队更有效地分配维护资源,从而提高工作效率并降低运维成本.然而,在软件开发的初期阶段,软件项目往往没有经过充分的演化,缺少历史数据用于构建有效的预测模型,因此跨项目克隆代码一致性维护需求预测方法被提出.文中以减少跨项目数据分布差异为切入点,提出了基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测方法CPCCP+,旨在将测试集与数据集映射到核空间中,通过迁移主成分分析方法减小跨项目数据的分布差异,并对数据集的类不平衡问题进行处理,从而提高跨项目预测模型的性能.在实验数据集方面,选取了7个开源数据集,合计形成42组跨项目克隆代码一致性维护需求预测任务.将提出的方法与使用基分类器的方法进行比较,评估指标包含Precision,Recall和F-Measure.实验结果表明,CPCCP+能更有效地进行跨项目克隆代码一致性维护需求的预测.

关键词：克隆代码、跨项目预测、一致性变化、迁移学习、过采样技术

所属期刊栏目：47

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金;广州产学研基金;梅州产学研项目

在线出版日期：2020-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：10-16

英文信息展示

期刊专题