基于本体实例信息的深度网表单属性自动抽取
Deep Web是隐藏在Surface Web之后的信息提供者,而且在Deep Web之中还隐藏着更大量的信息.目前,对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问.自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法.查询接口中属性之间存在着不同的语义约束关系,如互斥和共存.为了生成有效的查询条件,必须发现并协调关键属性间的语义关系.为了解决些问题,提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法,在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系.在属性抽取过程中,每个属性被拓展生成一个备选属性集并且以树型数据结构存储,而且备选属性树可以有效的描述属性间的语义关系.在现实领域中的试验证明,这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件.
Deep Web、Surface Web、查询接口、WordNet、本体
30
TP393(计算技术、计算机技术)
自然科学基金项目60373099,60873235;国家教育部高等学校博士学科点专项科研基金项目200801830021;吉林省科技发展基金项目20070533,20080318;新世纪高校杰出青年基金项目NCET-06-0300
2009-06-09(万方平台首次上网日期,不代表论文的发表时间)
共4页
883-886