10.3969/j.issn.1672-9730.2014.02.024
基于网页去噪Hash的增量式网络爬虫研究
基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程.然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况.研究提出一种去噪后Hash产生方法,通过对网页文本块进行“正文”与“噪声”分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率.实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能.
Hash、网页去噪、增量、Heritrix
34
TP393(计算技术、计算机技术)
2014-03-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
86-90