DOI：10.13272/j.issn.1671-251x.2022080018

面向大型数据集的局部敏感哈希K-means算法

引用

摘要：

大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑.针对K-means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K-means聚类算法.基于LSH对抽样过程进行优化,提出了数据组构建算法LSH-G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH-G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH-GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K-means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据.实验结果表明:由 10个AND操作与 8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M-SRS)的K-means算法、基于DBS的K-means算法及基于网格密度偏差抽样(G-DBS)的K-means算法相比,基于LSH-GD的K-means算法在聚类准确性方面的平均提升幅度分别为 56.63％、54.59％及 25.34％,在聚类高效性方面的平均提升幅度分别为 27.26％、16.81％及7.07％;在UCI标准数据集上,基于LSH-GD的K-means聚类算法获得的SSEC与CPU消耗时间(CPU-C)均为最优.

关键词：智慧矿山、大型数据集、K-means聚类、局部敏感哈希、噪声点筛选、密度偏差抽样

所属期刊栏目：49

分类号：TD67(矿山电工)

资助基金：国家重点研发计划2021YFB3201905

在线出版日期：2023-04-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：53-62

英文信息展示

期刊专题