10.16208/j.issn1000-7024.2017.03.017
Web大数据环境下的相似重复数据清理
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法.对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址.使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果.
Web大数据、重复数据删除、数据清理、相似哈希、数据质量评估
38
TP391(计算技术、计算机技术)
国家自然科学基金项目61373162;四川省科技支撑基金项目2014G2007;可视化计算与虚拟现实四川省重点实验室基金项目KJ201402
2017-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
646-651