10.3969/j.issn.1673-629X.2019.05.009
DBSCAN聚类算法的参数配置方法研究
随着互联网技术的飞速发展,海量数据涌现.在海量的数据中,存在大量无用甚至错误的"脏数据",这些低质量的数据难以提供有价值的信息.数据质量低的一个方面就是数据异常.对数据异常检测问题进行了研究,将基于密度的DBSCAN聚类算法应用于数据的异常检测,并针对该算法在应用过程中对参数设置敏感的问题,提出了一种邻域阈值(Eps)和点数阈值(Minpts)的配置方法.该方法可根据数据集本身的统计特性以及图表的可视化展示来为算法确定合适的参数.利用MATLAB工具,编程实现了DBSCAN聚类算法及辅助参数的计算,并在Iris数据集上进行了实验验证.实验结果表明,用该方法进行DBSCAN聚类算法参数的设置是可行的,弥补了DBSCAN聚类算法参数设置的传统做法单靠经验的不足,使得检测结果的准确性和可伸缩性更好.
数据异常检测、聚类算法、DBSCAN、参数配置
29
TP311(计算技术、计算机技术)
国家自然科学基金61371196
2019-06-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
44-48