网络爬虫的设计与实现

引用

摘要：

随着社会的飞速发展，互联网上信息容量急剧增加，人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一，同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中，经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解，使用Java与HTML解析工具jsoup以及MySQL数据库实现一个网络爬虫，简单爬取京东的图书数据，用于用户喜好的分析及购买倾向的判断，为用户提供个性化的服务。

关键词：搜索引擎、网络爬虫、抓取策略、Java、jsoup、MySQL

分类号：TP391(计算技术、计算机技术)

资助基金：青岛市科技计划基础研究项目12-1-4-4-8-jch

在线出版日期：2014-07-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：3986-3988,4012

英文信息展示

期刊专题