10.16508/j.cnki.11-5866/n.2021.02.013
基于CWMD和SP的微博话题发现算法
针对传统微博话题发现算法中,计算文本距离时仅仅考虑词与词的距离和最小而产生的问题,提出了使用CWMD(cos-word mover's distance)作为聚类标准的算法.结合余弦距离和WMD计算句子之间的相似性;使用TF-IDF向量代替WMD中词频权重向量,将所有词对文档的贡献纳入考量;使用CWMD代替传统的距离作为SP(Single-Pass)聚类的标准;并且提出了构建文本待定池的SP算法,旨在避免话题发现过程中数据到达的先后顺序对结果产生的影响,从而提高话题发现的准确性.通过对中文语料数据库中的部分数据进行对比实验,证实了该话题发现模型效果更好.进一步将该模型应用到爬取的微博数据中,将提取的簇的关键词和微博热搜话题进行比对,结果显示二者具有很强的相关性.
词向量加权、余弦距离、词移距离、增量聚类、话题发现
36
TP391.9(计算技术、计算机技术)
中国铁道科学研究院·机车走行部状态监测系统9151524108
2021-06-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
76-81