面向开源源码大数据的数据质量研究
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3778/j.issn.1673-9418.1901059

面向开源源码大数据的数据质量研究

引用
基于开源源码大数据进行代码生成、缺陷预测等是当前智能化软件开发方法与技术的重要研究内容.然而现有的关注点主要聚焦于各种推荐、预测等智能算法的研究,较少对研究所使用数据的质量进行评估与分析.大部分智能化软件开发研究的数据来源于开源数据托管平台,受限于开发者自身水平,它们并不能保证都具有较高质量.根据"garbage in,garbage out",这会影响最终结果质量.源码数据的质量对相关的研究有重要影响,却没有得到足够的重视.针对上述问题,提出了一种面向开源源码大数据的方法块数据质量评估方法.首先研究如何定义和评估GitHub上抽取的源码的数据质量问题,然后对开源源码从不同维度进行质量评估.通过该源码数据质量评估方法可以帮助相关研究人员构建具有更高质量的数据集,进而提高智能化相关研究,比如代码生成、缺陷预测等的结果质量.

编程智能化、开源大数据、源码数据、数据质量

14

TP391(计算技术、计算机技术)

The National Key Ressearch&Development Program of China under Grant No. 2018YFB1003900 国家重点研发计划项目;the National Natural Science Foundation of China under Grant Nos. 61602267, 61402229 国家自然科学基金;the Open Fund of State Key Laboratory for Novel Software Technology under Grant No. KFKT2018B19 计算机软件新技术国家重点实验室基金;the Foundation of Graduate Innovation Center in Nanjing University of Aeronautics and Astronautics under Grant No. kfjj20181604 南京航空航天大学研究生创新基地实验室开放基金项目;the Fundamental Research Funds for the Central Universities of China under Grant No. NS2019058 中央高校基本科研业务费专项资金

2020-03-31(万方平台首次上网日期,不代表论文的发表时间)

共12页

389-400

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学与探索

1673-9418

11-5602/TP

14

2020,14(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn