10.3969/j.issn.1673-629X.2012.08.015
不确定数据的重复记录检测
随着不确定数据成为研究的热点,不确定数据管理吸引了研究者的极大兴趣.目前业界已经使用概率数据库来存储和管理不确定数据.为合并多个自治概率数据库中的数据,需要对不确定数据进行集成.现有对数据集成的研究主要集中于对确定数据(关系型数据和半结构化数据)的研究,对不确定性数据的集成没有相关工作.重复记录检测是集成过程中必要和具有代表性的组成部分,文中讨论了重复检测的基础,研究了有依赖和无依赖的不确定数据重复检测,最后提出了两个不确定数据重复记录检测的模型.
不确定数据、重复记录、数据整合、比较向量、决策模型
22
TP311(计算技术、计算机技术)
国家自然科学基金60873025
2012-11-01(万方平台首次上网日期,不代表论文的发表时间)
共4页
60-62,66