基于文摘的SLDA主题模型

引用

摘要：

文本数据含有与文章内容高度相关的额外信息，而标准的LDA主题模型对这些信息没有加以利用，导致在很多文本的处理过程中出现对关键信息的遗漏的问题，降低了LDA模型的主题提取能力和数据降维能力。构建一种利用文档文摘信息的SLDA模型，在对文档建模时引入机械抽取的文摘信息，通过文摘信息对文档内容平滑，可以很全面地利用文档自身特征信息，从而提高了模型对文档的主题提取能力和数据降维能力。实验结果表明，在标准的LDA模型中引入文摘信息可以提高模型的文档主题提取能力。

关键词：主题模型、LDA、自然语言处理

所属期刊栏目：35

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金“基于统计机器翻译和文摘的查询扩展研究No.61363045”；云南省自然科学基金重点项目“舆情观点分析No.2013FA130”。

在线出版日期：2016-07-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：231-234

英文信息展示

期刊专题