10.3969/j.issn.1673-808X.2012.06.010
基于DOM的Deep Web查询接口属性抽取方法
属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少.针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取获得的元素集合进行二次聚类,挖掘元素之间的组合关系,最终将元素组合形成属性.这种方法能很好地抽取接口上的单元素属性和多元素属性,实验结果表明了方法的有效性.
属性抽取、Deep Web、查询接口、DOM节点、表单元素
32
TP391.1(计算技术、计算机技术)
国家自然科学基金61163057
2013-06-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
468-472