10.11830/ISSN.1000-5013.202110006
结合PCA的t-SNE算法的并行化实现方法
为了提高大数据环境下高维非线性数据的处理速度和精确度,提出一种结合主成分分析(PCA)的基于t分布的随机近邻嵌入(t-SNE)算法.首先,通过主成分分析法对原始数据进行预处理,去除噪声点;然后,结合t-SNE算法,构建K最邻近(K-NN)图,以表示高维空间中数据的相似关系;最后,在Spark平台上进行并行化运算,并在BREAST CANCER,MNIST和CIFAR-10数据集上进行实验.结果表明:文中算法完成了高维数据至低维空间的有效映射,提升了算法的效率和精确度,可应用于大规模高维数据的降维.
高维数据、Spark平台、降维、可视化、t-SNE算法
43
TP391(计算技术、计算机技术)
国家自然科学基金61505059
2022-09-22(万方平台首次上网日期,不代表论文的发表时间)
共8页
685-692