融合DSTM和USTM方法的主题模型

引用

摘要：

当前监督或半监督隐藏狄利克雷分配（latent Dirichlet allocation，LDA）模型多数采用DSTM（down-stream supervised topic model）或USTM（upstream supervised topic model）方式加入额外信息，使得模型具有较高的主题提取和数据降维能力，然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究，提出了一种将DSTM和USTM结合的概率主题模型ART（author & reference topic）。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程，因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling 方法对模型参数进行了学习，并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明，ART模型不仅拥有高效的文档主题提取和聚类能力，同时还拥有优良的文档作者判别和引用文献排序能力。

关键词：隐藏狄利克雷分配(LDA)、监督主题模型、文档聚类、作者预测

分类号：TP399(计算技术、计算机技术)

资助基金：The National Natural Science Foundation of China under Grant No.71172219;the Natural Science Foundation of Anhui Province of China under Grant No. KJ2011Z039

在线出版日期：2014-05-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：630-639

英文信息展示

期刊专题