10.3778/j.issn.1002-8331.1202-0458
结合LDA和谱聚类的多文档摘要
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(LatentDirichletAllocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档。使用ROUGE自动评测工具包对DUC2002数据集评测质量,结果表明,该方法能有效地提高的质量。
Latent Dirichlet Allocation(LDA)、Gibbs抽样、谱聚类、多文档摘要
TP391(计算技术、计算机技术)
国家高技术研究发展计划项目863No.2007AA01Z151。
2013-08-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
142-145,154