基于复杂网络局部社团发现的主题爬行研究
从全局上限定采集范围可以有效地提高主题爬虫的查准率.结合Web链接分析和页面内容特征分析,提出了一种基于复杂网络局部社区发现的主题爬行方法,将主题爬行分为两个阶段,第一阶段采用复杂网络的局部社区发现算法进行Web链接分析,构建主题网站群,缩小爬行范围.在第二阶段,在限定的范围内,对爬取到的页面进行主题相似度判定,并对下一步的链接目标进行预测.实验证明,该方法显著提高了主题爬虫的查准率.
局部社区发现、主题爬行、主题网站群、相似度分析
42
TP391.3(计算技术、计算机技术)
国家自然科学基金71271209;北京市教委科技重点项目SZ201311417001;北京市教委2014年科研基地项目pxm2014_014209_07_000076.
2014-09-26(万方平台首次上网日期,不代表论文的发表时间)
134-138