基于改进K-means的大气污染物高维度信息研究

引用

摘要：

对中国2013～2018年高分辨率大气污染分析开放数据集采用传统数据挖掘方法时,面临数据量大、挖掘效率低等难题,改用基于Spark K-means的聚类方法对大气污染物海量信息进行研究.以6种常见大气污染物和5种环境影响因子为例,建立了Pm2.5、Pm10、SO2、NO2、CO、O3和Temp等数据维度模型.对K-means算法选择初始聚类数K值时,利用Gap Statistic算法相比传统K-means算法利用SSE算法确定K值,Gap Statistic算法在高维度样本数据模型中确定K值更合理且直观.

关键词：大气污染数据、聚类分析、Gap Statistic算法、误差分析

所属期刊栏目：41

分类号：TP399(计算技术、计算机技术)

在线出版日期：2022-12-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：135-139

英文信息展示

期刊专题