大规模数据的集合相似度估计研究进展
相似度估计是实现近似集合检索的一个重要组成部分.针对于不用的相似度度量方式,主要有使用Jaccard相似度的MinHash算法和基于海明距离的SimHash算法,它们是两种常用的大规模数据相似度度量技术.此外,还有基于集合包含度下的集合相似度估计算法.通过总结多篇已发表论文,详细地回顾了不同的相似度度量方式下的集合相似度估计方法.
相似度估计、MinHash、相似性检索、集合、SimHash
26
TP391(计算技术、计算机技术)
国家自然科学基金项目61572266
2018-01-31(万方平台首次上网日期,不代表论文的发表时间)
共5页
1-5