基于文摘的SLDA主题模型
文本数据含有与文章内容高度相关的额外信息,而标准的LDA主题模型对这些信息没有加以利用,导致在很多文本的处理过程中出现对关键信息的遗漏的问题,降低了LDA模型的主题提取能力和数据降维能力。构建一种利用文档文摘信息的SLDA模型,在对文档建模时引入机械抽取的文摘信息,通过文摘信息对文档内容平滑,可以很全面地利用文档自身特征信息,从而提高了模型对文档的主题提取能力和数据降维能力。实验结果表明,在标准的LDA模型中引入文摘信息可以提高模型的文档主题提取能力。
主题模型、LDA、自然语言处理
35
TP391(计算技术、计算机技术)
国家自然科学基金“基于统计机器翻译和文摘的查询扩展研究No.61363045”;云南省自然科学基金重点项目“舆情观点分析No.2013FA130”。
2016-07-29(万方平台首次上网日期,不代表论文的发表时间)
共4页
231-234