10.3969/j.issn.1000-7024.2006.18.041
基于部件的文本相似度计算
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景.研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度.实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点.
信息检索、复制检测、相似度、自然语言处理、部件
27
TP391(计算技术、计算机技术)
2006-10-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
3444-3446