大规模代码克隆的检测方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3778/j.issn.1673-9418.1311018

大规模代码克隆的检测方法

引用
代码克隆检测在剽窃检测、版权侵犯调查、软件演化分析、代码压缩、错误检测,以及寻找bug,发现复用模式等方面有重要作用。现有的代码克隆检测工具算法复杂,或需要消耗大量的计算资源,不适用于规模巨大的代码数据。为了能够在大规模的数据上检测代码克隆,提出了一种新的代码克隆检测算法。该算法结合数据消重中的基于内容可变长度分块(content-defined chunking,CDC)思想和网页查重中的Simhash算法思想,采用了对代码先分块处理再模糊匹配的方法。在一个包含多种开源项目,超过5亿个代码文件,共约10 TB代码内容的数据源上,实现了该算法。通过实验,比较了不同分块长度对代码克隆检测率和所需要时间的影响,验证了新算法可以运用于大规模代码克隆检测,并且能够检测出一些级别3的克隆代码,达到了较高的准确率。

代码克隆、检测、大规模代码数据

TP18;TP311(自动化基础理论)

The National Natural Science Foundation of China under Grant Nos.91118004,61073016;the National Basic Research Program of China under Grant No.2011CB302604国家重点基础研究发展计划973计划;the Joint Funds of the National Natural Science Foundation of China under Grant No. U1201252;the National High Tech-nology Research and Development Program of China under Grant No.2012AA011202国家高技术研究发展计划863计划

2014-04-15(万方平台首次上网日期,不代表论文的发表时间)

共10页

417-426

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学与探索

1673-9418

11-5602/TP

2014,(4)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn