DOI：10.3969/j.issn.1673-4785.2010.02.012

主题模型LDA的多文档自动文摘

引用

摘要：

近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.

关键词：多文档自动、句子分值计算、主题模型、LDA、主题数目

所属期刊栏目：5

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目60970047;山东省自然科学基金资助项目Y2008G19;山东省科技计划资助项目2007GG10001002, 2008GG10001026

在线出版日期：2010-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：169-176

英文信息展示

期刊专题