基于RDDs的分布式聚类集成算法
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一秘基于弹性分布式数据集(Resilient Distributed Datascts,RDDs)的分布式聚类集成算法(DisCE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示:最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间.
聚类集成、分布式汁算、弹性分布式数据集
37
TP391(计算技术、计算机技术)
国家自然科学基金项目61170111,61134002,61202043;四川省科技支撑计划项目2014SZ0207
2016-10-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
1434-1439