基于相似重复记录检测的特征优选方法研究

引用

摘要：

目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题.

关键词：特征优选、相似重复记录、模糊聚类、相似度、维度

所属期刊栏目：30

分类号：TP18(自动化基础理论)

资助基金：南通大学自然科学基金项目03040547

在线出版日期：2010-03-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：5492-5495

英文信息展示

期刊专题