DOI：10.3969/j.issn.1003-0077.2011.01.017

一种基于HITS算法的Blog文摘方法

引用

摘要：

Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题.以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章.该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法.该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句.通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法.

关键词：文档自动摘要、Blog、评论、HITS

所属期刊栏目：25

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目60970047;山东省科技攻关资助项目2007GG10001002,2008GG10001026;山东省自然科学基金资助项目Y2008G19

在线出版日期：2011-06-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：104-109

英文信息展示

期刊专题