DOI：10.11772/j.issn.1001-9081.2013.08.2208

海量数据的相似重复记录检测算法

引用

摘要：

针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测.综合加权法通过结合用户经验和数理统计法计算各属性的权重.基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数.实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题.

关键词：海量数据、相似重复记录、综合加权法、编辑距离

所属期刊栏目：33

分类号：TP311(计算技术、计算机技术)

资助基金：江苏省科技支撑项目BE2011156

在线出版日期：2013-10-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2208-2211

英文信息展示

期刊专题