DOI：10.3969/j.issn.1672-9722.2009.07.046

基于HtmlParser抽取动态异构Web信息的研究与实现

引用

摘要：

抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点.通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程.

关键词：动态异构、网页抽取、HtmlParser

所属期刊栏目：37

分类号：TP393(计算技术、计算机技术)

资助基金：云南省教育厅2008年科学研究基金项目"图书馆资源整合研究与实现"08C0272

在线出版日期：2009-10-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：161-164,206

英文信息展示

期刊专题