基于链接结构和内容相似度的聚焦爬虫系统

引用

摘要：

介绍了基于链接结构和内容相似度的主题Web Crawler系统结构,重点介绍了其中的联合网页链接结构和内容相似度来计算网页相关度算法.该算法计算种子网页集到抓取网页的链接数目和抓取网页到种子网页集的链接数目,及Web内容与主题的内容相似度,综合计算该网页的相关度权值,从中选择权威网页或hub网页作为种子网页,从而提高主题爬虫系统的爬行效率和抓取网页的查准率.

关键词：聚焦爬虫、链接结构、内容相似度、向量空间模型、查准率

所属期刊栏目：29

分类号：TP393(计算技术、计算机技术)

在线出版日期：2008-05-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1709-1710,1763

英文信息展示

期刊专题