10.3969/j.issn.1674-3873.2014.04.037
一种文本文档相似性计算的方法
首先对当前文本文档相似度计算方法的优缺点及适用范围进行了分析。由于越长的词语表达的意思一般越完整,基于这一思想,对不同长度的词语赋予不同的权值,把长度为 n 的公共序列引入到相似度的计算中,构造了一文本相似度计算公式,对其中相似度计算公式的合理性给予了理论证明。最后,通过实验证明该方法是有效的。
文本文档、公共序列、相似度、字符串匹配
TP311(计算技术、计算机技术)
安徽财经大学科研项目ACKY1452
2014-11-26(万方平台首次上网日期,不代表论文的发表时间)
共3页
130-132