10.3969/j.issn.1000-1220.2018.11.021
LDA与词汇链相结合的主题短语抽取方法
主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主题漂移问题;在主题短语抽取中,利用对数似然比解决了词汇链构造过程中知识库未收录词的词语相关度的计算问题.实验结果表明,该方法相对于传统方法的主题抽取效果具有明显的改善,且准确率和召回率均有所提升.对信息检索、文本聚类等工作具有十分重要的支撑作用.
LDA模型、词汇链、WordNet、主题短语、对数似然比
39
TP391(计算技术、计算机技术)
国家自然科学基金项目61671070;北京成像技术高精尖创新中心项目BAICIT-2016003;国家社会科学基金重大项目14@ZH036;国家语委重点项目ZDI135-53;国家语委重大课题项目ZDA125-26
2018-12-20(万方平台首次上网日期,不代表论文的发表时间)
共7页
2457-2463