基于Hadoop平台的数据清洗研究
各行各业数据的指数级增长,导致数据仓库建设管理,数据库中知识发现和总体数据质量管理中涉及的重复数据、数据值缺失、错误记录、没有意义的异常值等数据问题越来越棘手.这三个领域也是数据清洗的主要领域.基于当前现状,结合当前各大企业数据处理的平台,利用Hadoop平台中的相关组件对企业中的完全重复的数据和相似重复的数据进行清洗研究.
Hadoop平台、数据清洗、完全重复数据、相似重复数据
16
TP393(计算技术、计算机技术)
2020-03-25(万方平台首次上网日期,不代表论文的发表时间)
共2页
27-28