一种基于改进相似度计算的文本聚类方法

引用

摘要：

针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.

关键词：文本相似度、Jaccard系数、文本集合、谱聚类算法

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划（973计划）;国家自然科学基金;国家自然科学基金;中国博士后科学基金;河南大学科研项目;湖北省重点实验室开放基金;河南省科技研发专项

在线出版日期：2018-09-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：415-420

英文信息展示

期刊专题