10.16251/j.cnki.1009-2307.2016.03.032
行业动态信息采集系统关键问题解决方案
为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考.
Heritrix和Lucene、信息爬取、网页清洗、全文检索
41
P208(一般性问题)
国土资源部项目2014Z1317
2016-05-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
161-166