10.3969/j.issn.1000-3428.2009.05.019
基于CURE算法的相似重复记录检测
对CURE算法进行改进,将其应用到相似重复记录的检测.提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性.改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性.理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性.
相似重复记录、抽样算法、代表点
35
TP301.6(计算技术、计算机技术)
2009-04-21(万方平台首次上网日期,不代表论文的发表时间)
共3页
56-58