10.3969/j.issn.1000-3428.2016.08.032
一种基于谱分割的短文本聚类算法
短文本具有稀疏高维的特点,现有聚类算法在大规模短文本上的聚类精度较低且效率低下.针对该问题,提出一种以谱聚类理论作支撑,基于谱分割准则RMcut的新聚类算法.依据谱聚类理论,将短文本集合构建成一张带权无向图,并计算得到文档-文档的相似度矩阵,为聚类算法提供信息.不断迭代地用2-way方式划分该图,划分过程中使用RMcut值作为划分是否终止的条件,利用Prim算法将原图中的顶点加入到聚族中,以得到质量较高的聚类结果.实验结果表明,该算法具有较高的时间性能,与K-means算法、词共现聚类算法及基于免疫的聚类算法相比,聚类结果更准确.
短文本、相似度矩阵、无向带权图、RMcut准则、聚类算法
42
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61163039,61363058;甘肃省青年科技基金资助项目1308TJY085,145RJYA259;中国科学院计算技术研究所智能信息处理重点实验室开放基金资助项目IIP2014-4
2016-10-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
178-182