基于特征提取的开源社区Fork摘要自动生成方法
当前,基于P/R的分布式协同开发已经成为开源社区中的主导软件开发方式.开发者通过Fork复制软件项目的版本库,创建自身分支,并在新建分支中进行独立开发.由于P/R协同开发模型具有开放性、透明性和并行化等特征,开发人员在Fork项目时难以掌握项目的 Fork概况,不知道其他开发人员是否已通过Fork开展相同或类似的开发工作,从而容易产生重复性的贡献和冗余性开发.针对这个问题,提出一种Fork摘要的自动生成方法以帮助项目管理者加强项目管控,避免冗余贡献,增强合作交流.该方法首先爬取开源社区中具有Feature和Bug标签信息的Issue数据,采用随机森林方法训练一个分类器模型,以对Fork特征进行分类;随后收集Fork分支的软件开发活动数据,采用TextRank算法生成Fork详细信息以解释Fork的主要目的;最后设计了一组组合规则及相应的算法来整合Fork的类别、特征和其他信息,以形成完整的Fork摘要.为了检验所提方法在指导分布式协同开发方面的有效性,在Github上进行了30组人工测试和60组实际案例测试.结果表明,所提方法生成的Fork摘要的准确率达到67.2%,实验中76%的项目管理者认为Fork摘要有助于更好地管理项目,加强沟通与合作.
开源软件、开源社区、Fork摘要、分布式开发
47
TP311(计算技术、计算机技术)
国家重点研发计划项目2018YFB1004202;NSFC61532004
2020-04-10(万方平台首次上网日期,不代表论文的发表时间)
共9页
25-33