10.3969/j.issn.1673-4807.2006.03.012
数据整合中交互过滤扫描算法
当重复记录检测算法对大型数据库进行处理时,由于需要多次扫描数据库,时空消耗较大且效率较低.为了提高检测算法的效率,在区域无关扫描算法的基础上提出了交互过滤扫描算法.该算法在关键字排序上提出了按键盘字母顺序的排序规则,可缩小了重复记录之间的距离,减少比较次数.在两条记录应用字符串模糊匹配算法进行比较前,根据用户提供的相似度对数据库中的记录进行过滤处理.可避免数据库中差异度较大的两条记录在模糊匹配中的时间消耗.实验证明该算法的性能要优于区域无关扫描算法.
数据挖掘、数据清理、重复项清理、过滤扫描
20
TP311(计算技术、计算机技术)
江苏省自然科学基金BK2004058
2006-07-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
55-59