10.3969/j.issn.1007-757X.2021.12.019
基于哈希计算的大数据冗余消除算法设计
传统的大数据冗余消除算法无法实现冗余去重率与吞吐量的冲突平衡,为此,设计一种基于哈希计算的大数据冗余消除算法.依据样本数据在数据集中的边缘程度对数据进行分类处理.采用哈希算法计算分类后数据的相似度与熵值,由此判断数据是否为重复数据,实现消除冗余数据的算法设计.实验结果可知,所提算法最高去重率可达到99%,最高吞吐量可达到26 MB/s,验证了所提算法可有效解决冗余去重率与吞吐量之间的冲突问题.
哈希计算;大数据资源;冗余消除
37
TP391(计算技术、计算机技术)
广西科学研究与技术开发计划项目2015BC17063
2022-02-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
68-70