10.3969/j.issn.1002-0802.2019.11.013
基于最小哈希的重复数据清洗方法
大数据时代,数据的处理和应用受到了极大关注,重复数据清洗作为数据预处理的一部分,影响着数据预处理的效率和结果.主要针对重复数据进行处理,现有的方法主要采用了datacleaner的基础模块找出重复数据,由于需要对每个属性单独进行编码,相对繁琐.我们创新性的将数据转换为一段文字,利用最小哈希(minhash)编码方式对该段文字进行统一的编码,然后计算Jaccard相似度,从而找出重复数据.仿真结果表明,当数据量逐步增大时,minhash算法明显缩短了运算时间,提升了重复数据处理的效率.
重复数据、数据清洗、Jaccard相似度、最小哈希
52
TN919
2020-05-11(万方平台首次上网日期,不代表论文的发表时间)
共6页
2653-2658