10.3969/j.issn.1000-3428.2016.04.004
基于不完备集双聚类的缺失数据填补算法
缺失数据填补是数据清洗领域的一个重要问题.由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法.该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值波动一致的特点,对缺失数据进行填补.通过数学分析,把寻找含有缺失值的最大完美簇问题转化为求解缺失对象与其他对象之间的最大相似属性集问题,在相同的最大相似属性集下,以缺失值的众数作为填补值.采用4组UCI数据集进行实验,结果表明,该算法相比ROUSTIDA算法平均提高了77.13%的填补值精确度.
缺失数据填补、不完备集、双聚类、最大相似属性集、数据清洗、完美簇
42
TP311(计算技术、计算机技术)
广东省高新技术产业化基金资助项目2011B080701046
2016-08-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
20-26