DOI：10.16208/j.issn1000-7024.2017.03.017

Web大数据环境下的相似重复数据清理

引用

摘要：

为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法.对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址.使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果.

关键词：Web大数据、重复数据删除、数据清理、相似哈希、数据质量评估

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61373162;四川省科技支撑基金项目2014G2007;可视化计算与虚拟现实四川省重点实验室基金项目KJ201402

在线出版日期：2017-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：646-651

英文信息展示

期刊专题