10.3969/j.issn.1672-9722.2009.07.046
基于HtmlParser抽取动态异构Web信息的研究与实现
抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点.通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程.
动态异构、网页抽取、HtmlParser
37
TP393(计算技术、计算机技术)
云南省教育厅2008年科学研究基金项目"图书馆资源整合研究与实现"08C0272
2009-10-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
161-164,206