10.3778/j.issn.1673-9418.1411043
大数据上基于Hadoop的不一致数据检测与修复算法
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。
数据一致性、MapReduce、条件函数依赖、数据质量
TP311(计算技术、计算机技术)
The National Natural Science Foundation of China under Grant No.61472099;the National Basic Research Program of China under Grant No.2012CB316200国家重点基础研究发展计划973计划;the National Sci-Tech Support Plan of China under Grant No.2015BAH10F00
2015-09-21(万方平台首次上网日期,不代表论文的发表时间)
共12页
1044-1055