10.3969/j.issn.1001-3695.2011.02.024
基于链接和内容的BLCT主题爬行算法研究
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究.首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法.实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了.
垂直搜索引擎、PageRank算法、主题爬行、链接相似度、内容相似度
28
TP301(计算技术、计算机技术)
2011-06-24(万方平台首次上网日期,不代表论文的发表时间)
共4页
495-497,528