10.3969/j.issn.1673-629X.2016.08.002
一种基于TextRank的文本二次聚类算法
针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。实验结果表明,改进后的算法在聚类效果上要优于传统的VSM聚类和基于主题模型的LDA算法。
文本聚类、TextRank、提取、向量空间模型、LDA
26
TP391.9(计算技术、计算机技术)
国家自然科学基金资助项目61105064,61203311,61373116;陕西省教育专项科研计划14JK1667;西安邮电大学研究生创新基金项目CXL2014-23
2016-09-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
7-11