DOI：10.3969/j.issn.1672-6944.2014.05.138

相似重复记录检测的特征优选策略探究

引用

摘要：

信息时代的来临，对大数据的检测和识别提出更高的要求，如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多，数据源组成更为繁琐，导致检测精度不足和检测代价高昂问题的出现。为此，本文探索分析了相似重复记录检测的特征优选方案，从分组模糊聚类的原理出发，对相似重复几率的组内计算方法进行剖析，探究其在大数据集中检测精度和识别认识方面的优势。

关键词：特征优选、相似重复记录、模糊聚类、相似度、策略

分类号：TP3;TP2

在线出版日期：2014-06-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共1页

页码：172-172

期刊专题