DOI：10.3969/j.issn.1007-130X.2005.06.025

基于聚类分析技术的数据清洗研究

引用

摘要：

数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤.数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法.本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务.

关键词：数据清洗、近似重复记录、聚类、ICAD

所属期刊栏目：27

分类号：TP311.13(计算技术、计算机技术)

资助基金：国家重大科技专项基金2001BA102A06-11

在线出版日期：2005-06-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：70-71,77

英文信息展示

期刊专题