基于多SimHash指纹的近似文本检测

引用

摘要：

近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多SimHash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小.

关键词：近似文本检测、SimHash、多SimHash指纹、术语统计

所属期刊栏目：32

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金项目60825202,60803079,60921003,61070072;国家科技支撑计划项目2009BAH51B02;“核高基”国家科技重大专项2010ZX01045-001-005资助:长江学者奖励计划项目资助:新世纪优秀人才支持计划项目NECT-08-0433;IBM Research China University Relation Program资助

在线出版日期：2012-06-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：2152-2157

英文信息展示

期刊专题