10.3969/j.issn.1006-9348.2022.12.070
基于改进Spark技术的高维数据增量式聚类算法
已有数据增量式聚类算法忽略了数据的降维过程,导致算法无法聚类处理属性较多的高维数据.现提出基于改进Spark技术的高维数据增量式聚类算法.基于混沌分区方法重组高维数据结构,获取模糊数据分布轨迹.采用基于信息熵的高维稀疏降维算法,筛选分布空间中的高维数据特征,完成数据降维.改进Spark技术,设计并行化增量式高维数据聚类优化算法,检测降维后数据特征之间的关联性,并融合数据特征,确定聚类中心后完成高维数据增量式聚类.测试结果表明,高维数据的嵌入维数为7时,算法的重组效果较好,有效实现数据集的维度下降,降低了存储空间的占用率,可完成高维数据的有效、可靠聚类.
高维数据、增量式聚类、数据降维、结构重组、增量比例
39
TP319(计算技术、计算机技术)
分布式数据库隐私信息增量式更新方法仿真2017ZY0725
2023-02-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
383-386,444