10.3969/j.issn.1673-629X.2014.07.013
基于链接回溯的地理信息更新主题爬虫研究
互联网的崛起为地理信息更新检索提供了一条新的途径,具有实时性强、成本低的优势。文中从实际出发,针对现有爬虫算法的缺陷,提出一种基于链接回溯的地理信息更新主题爬虫方法。首先,结合支持向量机分类技术,能够快速有效地找出一个网站中最有可能包含主题相关内容的链接方向;然后,回溯到这些链接后继续进行爬取,并通过地理信息变化要素知识库确定主题内容,从而优化爬取路径,减少低效率的爬取过程。实验结果表明,该方法可以找出最有可能包含地理信息的链接方向,大幅提高主题爬取效率,在其他主题方向也具有一定的可推广性。
主题爬虫、地理信息更新、支持向量机、回溯算法
TP31(计算技术、计算机技术)
国家测绘科技项目;江苏省自然科学基金BK2012833;江苏省高校自然科学基金12KJB520011
2014-08-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
52-55,59