10.3969/j.issn.1000-1220.2012.12.033
基于LDA模型和话题过滤的研究主题演化分析
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
LDA模型、主题演化、种子话题、话题过滤、加权线性组合
33
TP18(自动化基础理论)
CCF-数字出版技术国家重点实验室开放基金项目CCF2012-02-02;河南省基础与前沿技术研究项目112300410007;河南工业大学高层次人才基金项目2012BS027
2013-02-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
2738-2743