一种改进的DBSCAN算法在Spark平台上的应用
针对DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法内存占用率较高的问题,文中将改进的DBSCAN聚类算法与Spark平台并行聚类计算理论相结合,对海量数据采用分而治之的办法进行聚类处理,大幅减小了算法对内存的占用率.实验仿真结果表明,所提出的并行计算方法能够有效缓解内存不足的问题,并且该方法也能够用来评价DBSCAN聚类算法在Hadoop平台下的聚类分析效果,还能对两种聚类方法进行对比分析,从而获得较好的计算性能;且其比在Hadoop平台上的计算加速度提高了24%左右,因此可以用以评价DBSCAN聚类算法在聚类处理方面的优劣.
并行计算、DBSCAN、聚类算法、Spark、聚类加速比
47
TP391(计算技术、计算机技术)
四川民族学院自然科学重点项目;四川省教育厅自然科学重点项目;四川民族学院2017年应用型示范课程项目;国家自然科学基金项目
2020-12-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
425-429,443