10.3969/j.issn.1008-0570.2007.33.072
深度搜索中下一页链接获取策略的研究
高质量、结构化的数据对很多应用来说其价值是无穷的.然而这些数据往往都隐藏在查询表单背后的深度web数据库中.深度web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据.最近的研究主要针时以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源.一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题.本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果.
下一页、深度搜索
23
TP393(计算技术、计算机技术)
国家科技基础条件平台科技部项目2003DKA5G015
2008-04-16(万方平台首次上网日期,不代表论文的发表时间)
共3页
183-184,176