DOI：10.11772/j.issn.1001-9081.2019061061

Spark框架优化的大规模谱聚类并行算法

引用

摘要：

为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法.首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化,降低存储需求;最后,采用近似特征向量计算来进一步减少计算量.不同测试数据集上的实验结果表明:随着测试数据集的规模增加,所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长,增长缓慢,其近似特征向量计算与精确特征向量计算取得相近的聚类效果,并且算法在大规模数据集上表现出良好的可扩展性.在获得较好的谱聚类性能的基础上,改进算法提高了运行效率,有效缓解了谱聚类的计算耗时及无法聚类问题.

关键词：大规模谱聚类、相似矩阵稀疏化、单向循环迭代、近似特征向量、分布式Spark并行计算

所属期刊栏目：40

分类号：TP181;TP311.13(自动化基础理论)

在线出版日期：2020-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：168-172

英文信息展示

期刊专题