10.3969/j.issn.1001-3695.2018.11.023
MB-HL模型的微博主题挖掘研究
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA).该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解.在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系.
微博、主题挖掘、潜在狄利克雷分布模型、隐马尔可夫模型、MB-HL模型、Gibbs采样
35
TP391(计算技术、计算机技术)
吉林省自然科学基金资助项目20130101060JC;吉林省教育厅 十二五"科学技术研究基金资助项目2014131,2014125
2018-12-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
3298-3301,3306