10.3969/j.issn.1000-3428.2015.05.004
不完整大数据的分布式聚类填充算法
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。
不完整大数据、近邻传播聚类、云计算、数据填充、不完整信息系统
TP311(计算技术、计算机技术)
国家自然科学基金资助项目U1301253;中国高等职业技术教育研究会规划课题基金资助项目GZYGH1213036,GZYGH 1213035;辽宁省自然科学基金资助项目2013020014;辽宁省社会科学基金资助项目L14AGL002。
2015-05-29(万方平台首次上网日期,不代表论文的发表时间)
共7页
19-25