10.3969/j.issn.1673-629X.2016.09.008
基于隐含狄利克雷模型的文献主题演化预测
利用隐含狄利克雷分配模型( LDA),根据科技文献往年的主题变化来分析科技文献主题的演化,是目前主题演化研究的热点。根据科技论文的主题演化具有无后效性的特点,使用马尔可夫链来预测主题的演化信息。该方法利用LDA模型获取不同时段的主题,使用相似度等方法对相邻时间窗口的主题进行关联,并根据主题的强度将主题分为热门主题、普通主题和冷门主题,最后利用马尔可夫链得到主题之间的强度转移概率矩阵,对主题的强度变化趋势进行分析和预测。对NIPS论文集进行实验表明,科技论文主题在长时间演化后,其状态占比趋于稳定,热门主题、普通主题和冷门主题占比将保持在30%、60%和10%左右。说明该方法能有效地根据现有的主题演化结果对主题在未来几年的演化信息进行预测。
隐含狄利克雷分配模型、主题演化预测、马尔可夫链、状态转移
26
TP301(计算技术、计算机技术)
国家自然科学基金资助项目61272422
2016-10-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
34-38,42