基于多SimHash指纹的近似文本检测
近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多SimHash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小.
近似文本检测、SimHash、多SimHash指纹、术语统计
32
TP311(计算技术、计算机技术)
国家自然科学基金项目60825202,60803079,60921003,61070072;国家科技支撑计划项目2009BAH51B02;“核高基”国家科技重大专项2010ZX01045-001-005资助:长江学者奖励计划项目资助:新世纪优秀人才支持计划项目NECT-08-0433;IBM Research China University Relation Program资助
2012-06-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
2152-2157