一种面向文档复制检测的特征提取方法
介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征,实验验证了方法的特性并与具有代表性的文档复制检测系统进行了对比,结果表明该方法能够确保发现文本长度大于保证闽值的复制内容,有效地提高了检测结果的准确性.
数字文档、复制检测、特征提取、相似度
29
TP391(计算技术、计算机技术)
教育部科学技术研究重点项目205014
2008-07-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
813-816