10.3969/j.issn.1007-130X.2005.06.025
基于聚类分析技术的数据清洗研究
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤.数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法.本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务.
数据清洗、近似重复记录、聚类、ICAD
27
TP311.13(计算技术、计算机技术)
国家重大科技专项基金2001BA102A06-11
2005-06-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
70-71,77