10.3778/j.issn.1673-9418.1407006
基于LDA重要主题的多文档自动摘要算法
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在 DUC2002标准数据集上取得了较好的摘要效果。
多文档摘要、主题模型、重要主题
TP391.1(计算技术、计算机技术)
The National Natural Science Foundation of China under Grant Nos.61272369,61175053,61402069;the Science and Technology Foundation of Dalian under Grant No.2013J21DW006
2015-02-13(万方平台首次上网日期,不代表论文的发表时间)
共7页
242-248