10.13705/j.issn.1671-6833.2017.05.001
基于Spark的标准化PCA算法
主成分分析(PCA)是数据挖掘中常用的数据降维技术,它将原来多个变量转化为少数的几个综合指标,介绍了主成分分析的原理、Spark的分布式架构以及Spark的MLlib分布式矩阵PCA算法,通过改进设计提出了一种带有标准化处理的SNPCA算法,并在多核CPU环境下进行了测试验证,实验结果证明了该算法的有效性.
主成分分析、Spark、分布式、标准化处理
38
TU316.4(建筑结构)
国家自然科学基金青年基金资助项目61602434;三峡库区水生态环境感知系统及平台业务化运行2014ZX07104-006;重庆市基础科学与前沿研究技术重点专项cstc2015jcyjB0244;中国科学院青年创新促进会资助项目2017393
2017-12-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
7-12