DOI：10.3969/j.issn.1000-1565.2020.04.015

基于MapReduce和Spark的大数据模糊K-means算法比较

引用

摘要：

从原理和实验2方面对基于MapReduce和Spark的大数据模糊K-均值算法进行分析比较,并对2种大数据开源平台的优缺点进行了总结.由于模糊K-均值算法是一种迭代算法,需要对部分数据进行重复操作以得到最终聚类结果,因此主要从算法执行时间、同步次数、文件数目、容错性能、资源消耗这5方面进行比较,得出的结论对从事大数据研究的人员具有较高的参考价值.

关键词：大数据、机器学习、聚类算法、模糊聚类算法、迭代算法

所属期刊栏目：40

分类号：TP181(自动化基础理论)

资助基金：河北省重点研发计划项目;河北省自然科学基金资助项目;河北省研究生专业学位教学案例库建设项目;河北大学研究生创新项目;河北大学工商学院第五批教育教学改革研究项目

在线出版日期：2020-09-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：433-440

英文信息展示

期刊专题