10.11896/j.issn.1002-137X.2017.02.007
基于MapReduce的主成分分析算法研究
随着MapReduce并行化框架的流行,各种数据挖掘算法的并行化也成为了当下研究的热点.主成分分析(Principle Components Analysis,PCA)算法的并行化也得到了越来越多的关注.通过对目前PCA算法的并行化研究的成果进行总结,发现这些PCA算法并行程度并不完全,特别是特征值计算过程.整个PCA算法流程分为两个阶段:相关系数矩阵求解阶段和矩阵的奇异值分解(Singular Value Decomposition,SVD)阶段.通过当前最流行的并行框架MapReduce,融合矩阵的QR分解,提出了一种奇异值分解的并行实现方法.利用随机产生的不同维度大小的双浮点矩阵比较并行奇异值分解相对传统串行环境下的算法效率的提升情况,并分析算法效率.之后,将并行奇异值分解融合到PCA算法中,同时提出相关系数矩阵的并行计算过程,将PCA计算的两个部分完全并行化.利用不同维度的矩阵对提出的并行PCA算法与已存在的未完全并行PCA算法、常规的PCA算法的运算速度进行比较,分析完全并行化PCA算法的加速比,最终得出所提算法在处理一定规模的大数据情况下的时间消耗要少许多.
主成分分析、奇异值分解、MapReduce
44
TP309(计算技术、计算机技术)
国家杰出青年科学基金资助项目61225012,71325002;国家自然科学基金资助项目61572123;高等学校博士学科点专项科研基金优先发展领域资助课题20120042130003
2017-04-10(万方平台首次上网日期,不代表论文的发表时间)
共5页
65-69