针对模板生成网页的一种数据自动抽取方法

引用

摘要：

当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于"列表页面"和"详细页面"两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.

关键词：Web、自动数据抽取、信息抽取、模板发现、Wrapper生成

所属期刊栏目：19

分类号：TP311(计算技术、计算机技术)

资助基金：国家重点基础研究发展计划973计划2007CB310804;国家自然科学基金60573117;国家高技术研究发展计划863计划2006AA01A106

在线出版日期：2008-05-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共15页

页码：209-223

英文信息展示

期刊专题