DOI：10.3969/j.issn.1673-629X.2019.10.017

相似重复数据检测的数据清洗算法优化

引用

摘要：

数据一直是各大企业竞争的对象,而企业在采集、处理以及最终录入数据库的数据中往往存在着相似重复的数据,这些数据也即"脏数据".脏数据如果不进行处理,势必会影响后续数据的操作,最终影响到数据的质量.数据清洗是处理脏数据、提高数据质量的热门技术手段,而其中相似重复数据检测更是数据清洗中的重要方面,比如堤防工程的数据存在很多地名、经纬度、砖孔数据等等,录入到数据库时相似重复度很高.目前针对重复数据检测应用最多的是SNM(基本邻近有序法)算法,主要是先将原有的数据集进行排序,再比较排序后相邻数据的相识度.但这种算法的时间复杂度很高.文中对SNM算法进行优化,首先将数据库记录的属性值进行分类,并结合三区间排序算法进行排序来减少比对范围,最后通过设定属性的权重并求和,根据记录相似度的结果来判断.实验结果证明了该算法的正确性.

关键词：脏数据、相似重复、数据清洗、SNM算法

所属期刊栏目：29

分类号：TP31(计算技术、计算机技术)

资助基金：国家重点研发计划课题2017YFC1502601

在线出版日期：2019-10-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：79-82

英文信息展示

期刊专题