面向大型数据集的局部敏感哈希K-means算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.13272/j.issn.1671-251x.2022080018

面向大型数据集的局部敏感哈希K-means算法

引用
大型数据集高效处理策略是煤矿安全监测智能化、采掘智能化等煤矿智能化建设的关键支撑.针对K-means算法面对大型数据集时聚类高效性及准确性不足的问题,提出了一种基于局部敏感哈希(LSH)的高效K-means聚类算法.基于LSH对抽样过程进行优化,提出了数据组构建算法LSH-G,将大型数据集合理划分为子数据组,并对数据集中的噪声点进行有效删除;基于LSH-G算法优化密度偏差抽样(DBS)算法中的子数据组划分过程,提出了数据组抽样算法LSH-GD,使样本集能更真实地反映原始数据集的分布规律;在此基础上,通过K-means算法对生成的样本集进行聚类,实现较低时间复杂度情况下从大型数据集中高效挖掘有效数据.实验结果表明:由 10个AND操作与 8个OR操作组成的级联组合为最优级联组合,得到的类中心误差平方和(SSEC)最小;在人工数据集上,与基于多层随机抽样(M-SRS)的K-means算法、基于DBS的K-means算法及基于网格密度偏差抽样(G-DBS)的K-means算法相比,基于LSH-GD的K-means算法在聚类准确性方面的平均提升幅度分别为 56.63%、54.59%及 25.34%,在聚类高效性方面的平均提升幅度分别为 27.26%、16.81%及7.07%;在UCI标准数据集上,基于LSH-GD的K-means聚类算法获得的SSEC与CPU消耗时间(CPU-C)均为最优.

智慧矿山、大型数据集、K-means聚类、局部敏感哈希、噪声点筛选、密度偏差抽样

49

TD67(矿山电工)

国家重点研发计划2021YFB3201905

2023-04-12(万方平台首次上网日期,不代表论文的发表时间)

共10页

53-62

相关文献
评论
暂无封面信息
查看本期封面目录

工矿自动化

1671-251X

32-1627/TP_x000d_

49

2023,49(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn