10.3969/j.issn.1003-0077.2011.01.017
一种基于HITS算法的Blog文摘方法
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题.以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章.该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法.该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句.通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法.
文档自动摘要、Blog、评论、HITS
25
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60970047;山东省科技攻关资助项目2007GG10001002,2008GG10001026;山东省自然科学基金资助项目Y2008G19
2011-06-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
104-109