DOI：10.3969/j.issn.1673-629X.2020.08.029

基于Spark的Canopy-FCM在气象中的应用

引用

摘要：

随着气象事业现代化水平的不断提高,气象部门积累了海量的气象数据,如何从海量的气象数据中挖掘出有用的知识,是提高气象服务能力的关键所在.针对传统聚类算法无法有效处理海量数据的问题,提出了一种基于Spark框架的Canopy-FCM(Canopy-fuzzy C-means)并行化聚类算法.该算法将Canopy算法与FCM算法相结合,避免了FCM算法对初始聚类中心敏感的问题,并结合Spark分布式框架内存计算的优势,大大降低了海量气象数据的处理时间.通过采用天津市208个区域自动气象站4～10月逐月降水观测数据,评估了天津市不同区域的降水情况.实验结果表明,提出的方法不仅可以快速有效地从气象数据中挖掘出有用的信息,同时与基于Hadoop框架下的算法相比,有更高的运行速率和加速比,也为相关部门有效地做出水旱灾害监测预警与风险防范决策提供了一种全新的思路和方法.

关键词：FCM、Canopy、Spark、气象、数据挖掘

所属期刊栏目：30

分类号：TP39(计算技术、计算机技术)

资助基金：国家重点研发项目2017YFC1502800

在线出版日期：2020-08-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：169-173

英文信息展示

期刊专题