10.13266/j.issn.0252-3116.2016.02.018
不同语料下基于IDA主题模型的科学文献主题抽取效果分析
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等.对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果.[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价.[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细.
主题模型、LDA、主题抽取、效果分析、科学文献
G202(信息与传播理论)
本文系国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”项目编号:71373124和安徽省高校自然科学基金研究项目项目编号:KJ2013B165、KJ2015A270研究成果之一.
2016-04-15(万方平台首次上网日期,不代表论文的发表时间)
112-121