10.3969/j.issn.1001-3695.2018.09.051
一种用于文本抄袭检测的特征提取算法
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率.针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法.该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征.其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面.实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高.
文本特征提取、抄袭检测、依存句法、句法框架
35
TP391;TP301.6(计算技术、计算机技术)
国家保密局保密科研项目BMKY2016AT02;复杂系统建模与仿真教育部重点实验室资助项目
2018-12-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
2781-2784,2788