10.3969/j.issn.1008-0570.2005.24.055
对基于MPN的相似重复记录识别算法的改进
相似重复记录识别是数据清理中的一个关键问题.文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销.文章最后给出了改进算法与原算法的对比试验结果.
数据清理、相似重复记录、字符串匹配、MPN、传递闭包
TP311(计算技术、计算机技术)
2005-12-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
147-149,3