10.3969/j.issn.1000-3428.2017.04.035
基于网站层次结构和主题模型LDA的网站自动摘要
近年来自动摘要方面的研究大多是关于多文档和Web网页的,而对网站自动摘要的研究较少.为此,基于主题模型隐含狄利克雷分布(LDA)和网站层次结构提出一个可以自动生成网站摘要的算法.该算法可获取整个网站内的网页信息并进行整合,根据提出的句子权重公式计算句子权重,选取权重最高的句子作为网站摘要.以20个商业和学术网站作为实验对象,使用ROUGE评测标准,结果表明,与仅使用主题模型LDA获取的网站摘要相比,不带停用词的ROUGE-1和ROUGE-L提高 0.32,带停用词的ROUGE-1提高0.39,ROUGE-L提高0.38.与网站首页摘要相比,不带停用词的ROUGE-1提高 0.03,ROUGE-L提高0.06,带停用词的ROUGE-1提高 0.08,ROUGE-L提高0.07.
Web网页、网站自动摘要、隐含狄利克雷分布、网站层次结构、宽度优先搜索
43
TP18(自动化基础理论)
国家科技支撑计划项目2015BAH01F02;上海张江国家自主创新示范区专项发展资金计划项目201411-JA-B108-002
2017-05-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
207-211,216