10.3969/j.issn.1000-3428.2016.11.032
一种面向词汇突发的连续时间主题模型
针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的 Dirichlet组合多项式(DCM)连续时间主题模型。采用 DCM分布对文本集中的词汇突发现象进行建模,利用 Beta分布刻画文本集中的时间特征,通过 Gibbs采样和不动点迭代法实现模型参数的估计。实验结果表明,在预设主题数目较少的情况下,与 ToT 和 DCMLDA模型相比,该模型具有明显的泛化性能优势,并且可以有效揭示出文本集中潜在的主题演化趋势。
主题模型、潜在 Dirichlet分配、词汇突发、Dirichlet组合多项式、Gibbs采样、不动点迭代法
42
TP391(计算技术、计算机技术)
国家自然科学基金61462022。
2016-12-02(万方平台首次上网日期,不代表论文的发表时间)
共7页
195-201