10.3969/j.issn.1001-3695.2017.07.010
基于优化密度的耦合空间LDA文本聚类算法研究
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法.该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径.实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,该算法的文本聚类精度更高、聚类效果更优.
文本聚类、耦合空间模型、LDA主题模型、密度、阈值
34
TP391.1;TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目61402212;辽宁省高等学校杰出青年学者成长计划资助项目LJQ2015045;辽宁省自然科学基金资助项目2015020098;辽宁省教育厅城市研究院一般项目LJCL008
2017-08-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
1966-1970