10.3969/j.issn.1000-436x.2012.12.006
用于文本相似度计算的新核函数
为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数.结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新核函数,并根据 Mercer 定理证明了所构造函数可以作为核函数.实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核、潜在语义核(LSK)以及CLA复合核.S_Wang核适用于文本相似度计算.
信息检索、文本相似度、核函数、S_Wang核、潜在语义核、Cauchy 核、CLA复合核
TP312(计算技术、计算机技术)
2013-01-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
43-48