10.11925/infotech.2096-3467.2021.1170
基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法
[目的]针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测.[方法]通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图,并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果.[结果]在两个网络新闻数据集上的实验结果表明,所提方法得到的ARI值更高,分别达到0.86和0.97.参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90.[局限]未在其他领域数据集以及多语言数据集上进一步验证.[结论]所提方法可以有效提升网络新闻话题检测性能,为话题检测关键技术研究提供有价值的参考.
共享最近邻、马尔科夫聚类、网络新闻、话题检测
6
TP391;G202(计算技术、计算机技术)
国家重点研发计划;中国科学技术信息研究所重点工作项目;中国科学技术信息研究所重点工作项目
2023-01-13(万方平台首次上网日期,不代表论文的发表时间)
共11页
103-113