10.3778/j.issn.1673-9418.1709034
面向特定划分的主题模型的设计与实现
利用主题模型对文本数据进行处理、分析在如今的数据挖掘领域应用十分广泛,其中LDA(latent Dirichlet allocation)作为一个简单易用的主题模型受到了广泛的关注.然而LDA假设每篇文本都来源于一个独立的生成过程,忽略了文本之间的联系.从生成模型的角度建模文本之间的联系,基于LDA设计了一个新 的主题模型DbLDA(LDA over text database).DbLDA针对文本数据库的特定划分(例如时间、地点)建模,充分利用每个子集中的共性,提高了模型的表达能力.由于DbLDA模型复杂,使用部分收缩变分贝叶斯法对DbLDA进行模型推断,加快了模型训练速度.在新闻数据库上对DbLDA及LDA进行了训练和测试,实验结果验证了DbLDA拥有更好的模型效果.
主题模型、数据挖掘、文本数据库
12
TP181(自动化基础理论)
The National Natural Science Foundation of China under Grant No. 61370080;the Shanghai Innovation Action Project under Grant No. 16DZ1100200
2018-08-14(万方平台首次上网日期,不代表论文的发表时间)
共11页
1036-1046