基于MapReduce的K-Medoids并行算法
为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想.Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用.实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性.
K-Medoids、云计算、MapReduee、并行计算、Hadoop
33
TP18(自动化基础理论)
教育部新世纪优秀人才支持计划项目NCET-08-0660;河南省高校科技创新人才支持计划项目2008HASTTT012;海南省自然科学基金资助项目610221;河南工业大学研究生创新计划基金资助项目11YJCX69
2013-05-10(万方平台首次上网日期,不代表论文的发表时间)
共4页
1023-1025,1035