10.3969/j.issn.1006-4303.2020.01.009
基于BBS-LDA的论坛主题挖掘
概率生成模型LDA(Latent Dirichlet allocation)是对文本进行主题挖掘的重要手段,在近几年有着广泛的应用.对于论坛文本,因为其本身具有一些结构特性,单纯使用LDA并不能够最大限度地利用文本信息挖掘主题,水帖、大量的短回复以及同一版块帖子的背景词也极大地影响了其主题挖掘的效果.针对论坛文本的特点,提出了基于改进LDA的BBS-LDA模型,并使用Collapsed gibbs sam-pling对模型进行推导.由于该模型利用了论坛的用户信息,故在挖掘主题的同时能够识别论坛的水贴和背景词.在天涯论坛语料上进行的实验表明,BBS-LDA可以有效地对论坛进行主题挖掘.
文本挖掘、主题模型、BBS-LDA
48
TP391(计算技术、计算机技术)
国家自然科学基金资助项目;浙江省自然科学基金资助项目
2020-03-16(万方平台首次上网日期,不代表论文的发表时间)
共8页
55-62