10.3321/j.issn:1002-8331.2001.19.008
基于汉明距离的文本相似度计算
传统的文本分类中相似度的计算,是根据欧氏空间中向量之间夹角的余弦值来表征的,它根据余弦值的大小来反映文本之间的相互关系.该文则首先建立文本集与码字集之间的1-1对应关系,然后借用编码理论中汉明距离的概念,由汉明距离的计算公式,得到了一种全新的文本相似度的计算方法,与传统的方法相比较,它具有简便,快速等优点.
文本分类、信息检索、汉明距离
37
TP18(自动化基础理论)
国家自然科学基金69982001
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共2页
21-22