10.13272/j.issn.1671-251x.2022080018
面向大型数据集的局部敏感哈希K-means算法
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑.针对K-means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K-means聚类算法.基于LSH对抽样过程进行优化,提出了数据组构建算法LSH-G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH-G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH-GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K-means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据.实验结果表明:由 10个AND操作与 8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M-SRS)的K-means算法、基于DBS的K-means算法及基于网格密度偏差抽样(G-DBS)的K-means算法相比,基于LSH-GD的K-means算法在聚类准确性方面的平均提升幅度分别为 56.63%、54.59%及 25.34%,在聚类高效性方面的平均提升幅度分别为 27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH-GD的K-means聚类算法获得的SSEC与CPU消耗时间(CPU-C)均为最优.
智慧矿山、大型数据集、K-means聚类、局部敏感哈希、噪声点筛选、密度偏差抽样
49
TD67(矿山电工)
国家重点研发计划2021YFB3201905
2023-04-12(万方平台首次上网日期,不代表论文的发表时间)
共10页
53-62