10.3321/j.issn:1002-8331.2007.34.036
一种基于后缀树的包装器自动生成方法研究
包装器是一种能够从网页中自动抽取数据并将其转换为结构化数据的软件程序.现有的包装器生成系统多是半自动化的,需要用户具有关于目标页面的先验知识,而且大多只能处理简单结构数据,而不能很好地处理具有嵌套结构的数据.提出了一种基于后缀树的包装器自动生成方法,生成的包装器不仅可以处理简单结构数据,还可以处理嵌套结构数据,具有较低的时间复杂度,有一定的实用价值.
网页、信息抽取、后缀树、半结构化数据、包装器自动生成
43
TP39(计算技术、计算机技术)
国家自然科学基金60473042
2008-03-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
114-118