DOI：10.3969/j.issn.1003-0077.2011.01.015

面向文本拷贝检测的分布式索引

引用

摘要：

如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题.通常的拷贝检测算法都需要借助倒排索引.因此良好的索引结构对于算法性能至关重要.同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引.为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性.为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法.在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性.

关键词：拷贝检测、重复检测、Map-Reduce

所属期刊栏目：25

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61073069,61003092;国家高技术研究发展计划863计划资助项目2009AA01A346

在线出版日期：2011-06-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：91-97

英文信息展示

期刊专题