10.3969/j.issn.2095-2163.2014.06.013
分布式平台下MinHash算法研究与实现
MinHash作为位置敏感哈希(LSH)算法中的一种,可以用来快速估算两个集合的相似度,查找网络上的重复网页或者相似新闻网页,MinHash算法使用Jaccard相似度来度量对象的相似程度.本文针对MinHash算法在分布式平台上的实现和性能表现进行分析和研究,给出了MinHash的分布式算法.最后通过具体的实验,验证了提出的MinHash算法在处理实际问题上的正确性和准确性.
MinHash、分布式、算法实现
4
TP311(计算技术、计算机技术)
2015-03-13(万方平台首次上网日期,不代表论文的发表时间)
共3页
44-46