10.3969/j.issn.1000-565X.2013.07.022
基于语义匹配的抄袭检测方法
现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN公用语料集上将该方法与Jaccard和Hamming距离法进行了对比测试,发现文中方法的召回率和准确度均更优.
语义匹配、抄袭检测、指纹、文本语义
41
TP391(计算技术、计算机技术)
the National Natural Science Foundation of China61070092;国家自然科学基金资助项目61070092
2013-10-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
131-136