10.15918/j.tbit1001-0645.2017.02.011
基于改进编辑距离和LCS的同源性检测技术
传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS(longest common sequence)的结构化识别同源性检测技术.在编辑距离(edit distance)计算中,引入交换算子,提高模块内部同源性度量精度.在LCS算法中,引入相似模块度量的最小尺寸监测机制和代码行间最大动态相关性度量,提供代码结构边界划分、模块行关联、代码有效结构化信息抽取的能力.实验证明,该方法是一种有效的基于结构化信息的同源性检测技术,其随机抽样检测结果的准确率、召回率及F值均有较优表现,且稳定性较好.
同源性检测、编辑距离、最长公共字串、结构化信息、代码变体
37
TP301(计算技术、计算机技术)
电子信息产业发展基金资助项目工信部财函[2011]506号
2017-04-18(万方平台首次上网日期,不代表论文的发表时间)
共7页
168-174