基于Spark框架的大数据K-prototypes聚类算法

引用

摘要：

大数据具有数据量大及混合类型的属性,基于MapReduce的K-prototypes并行大规模混合数据方案的缺点是时间和内存的限制,导致这些方案不适合处理大数据.为了解决这个问题,该文提出一种新的基于Spark的k-prototypes聚类方法,该方法使用了重新聚集技术,利用Spark框架的内存操作来构建大规模混合数据分组.在模拟和实际数据集上的实验表明,该文方法可行,且提高了现有K-prototypes方法的效率.

关键词：大数据、混合数据、K-prototypes、Spark框架

所属期刊栏目：44

分类号：TP311(计算技术、计算机技术)

资助基金：贵州省教育厅普通高等学校创新人才团队建设项目黔教合人才团队字[2015]67号

在线出版日期：2019-08-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：63-68

英文信息展示

期刊专题