10.3969/j.issn.1009-3044.2010.30.027
支持Gzip压缩和编码转换的网络爬虫设计
搜索引擎是互联网上最热门的基础应用之一,搜索引擎主要有三部分组成,网页抓取(Web Crawler),建立索引(Indexing)和搜索(Searching).该文阐述了网页爬取部分爬虫的设计,并就其中两项关键技术Gzip解压和UTF-8编码进行了详细的阐述,解决了网页爬的通用型问题,并为第三部分搜索提供直接支持.
Gzip、编码、网络爬虫、搜索引擎
6
TP393(计算技术、计算机技术)
海南软件职业技术学院科研项目Hr200812
2011-01-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
8485-8486,8497