10.3969/j.issn.1672-6944.2014.05.138
相似重复记录检测的特征优选策略探究
信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测的特征优选方案,从分组模糊聚类的原理出发,对相似重复几率的组内计算方法进行剖析,探究其在大数据集中检测精度和识别认识方面的优势。
特征优选、相似重复记录、模糊聚类、相似度、策略
TP3;TP2
2014-06-18(万方平台首次上网日期,不代表论文的发表时间)
共1页
172-172