基于改进的Jaccard系数文档相似度计算方法
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题.
文本相似度、Jaccard系数、文本分析、文本查重、文本检索
26
国家自然科学基金61472082;福建省自然科学基金2014J01220
2018-04-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
137-142