DOI：10.3969/j.issn.1672-9722.2016.04.001

基于全文检索的文本相似度算法应用研究

引用

摘要：

在大量的文本数据中，针对不能快速有效地提取或查找有用信息及知识这个问题，以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM 余弦算法和 Simhash来实现文本相似度的计算，首先采用传统的 VSM 余弦算法和 Simhash 算法，按照余弦公式通过内积最终计算出文本间的相似度大小 n（0＜ n＜1），最后为了实现余弦算法并提高系统效率，使用了大量容器如 Map 、Set 和 Vector 以及内积算法等。实验结果表明，余弦算法 VSM 由于其局限性不适合进行文本的相似度计算，而 Simhash 算法则具有高准确度以及可行性。

关键词：文本相似度、余弦 VSM、Simhash

所属期刊栏目：44

分类号：TP301.6(计算技术、计算机技术)

资助基金：国家自然科学基金项目“高可靠服务组合快速优化方法研究”编号61172084资助。

在线出版日期：2016-06-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：567-571,614

英文信息展示

期刊专题