基于MapReduce的并行异常检测算法
为了提高数据挖掘中异常检测算法在数据量增大时的准确度、灵敏度和执行效率,本文提出了一种基于MapReduce框架和Local Outlier Factor(LOF)算法的并行异常检测算法(MR-DLOF).首先,将存放在Hadoop分布式文件系统(HDFS)上的数据集逻辑地切分为多个数据块.然后,利用MapReduce原理将各个数据块中的数据并行处理,使得每个数据点的k-邻近距离和LOF值的计算仅在单个块中执行,从而提高了算法的执行效率;同时重新定义了k-邻近距离的概念,避免了数据集中存在大于或等于k个重复点而导致局部密度为无穷大的情况.最后,将LOF值较大的数据点合并重新计算其LOF值,从而提高算法准确度和灵敏度.通过真实数据集验证了MR-DLOF算法的有效性、高效性和可扩展性.
数据挖掘、异常检测、局部离群因子、Hadoop、MapReduce、分布式文件系统、并行计算、局部密度
14
TP311(计算技术、计算机技术)
国家自然科学基金项目61572435,61472305,61473222;教育部-中国移动联合基金项目MCM20170103;复杂电子系统仿真重点实验室基础研究基金项目DXZT-JC-ZZ-2015-015;宁波市自然科学基金项目2016A610035,2017A610119
2019-04-29(万方平台首次上网日期,不代表论文的发表时间)
共7页
224-230