10.3969/j.issn.1006-9348.2021.12.049
基于HDFS的海量日志数据冗余点过滤算法仿真
利用当前算法滤除数据冗余点时,缺少对数据冗余点特征的提取、分类处理过程,导致滤除效率差、准确率低、存储开销过大.于是设计了基于HDFS的海量日志数据冗余点过滤算法.引入HDFS体系架构,利用数据采样时间序列获取数据冗余点的特征,并进行分类处理,提升冗余点的滤除效率;计算滤除前含有冗余特征的数据字节数与普通字节数之比的缩减率、误判率,减少存储开销量;为提高准确率、消除性能,采用相似度概念,根据冗余点的突出特征计算整体相似度,再通过均值漂移传递函数实现对数据冗余点的滤除.实验结果表明:上述算法滤出效率更好、准确率更高、存储开销量更小.
数据冗余点;冗余特征;缩减率计算;均值漂移传递函数
38
TP391(计算技术、计算机技术)
内蒙古工业大学科学研究项目ZY201902
2022-01-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
241-244,249