基于相似重复记录检测的特征优选方法研究
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大.针对这些问题,提出了一种分组模糊聚类的特征优选方法.该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测.理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题.
特征优选、相似重复记录、模糊聚类、相似度、维度
30
TP18(自动化基础理论)
南通大学自然科学基金项目03040547
2010-03-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
5492-5495