DOI：10.3969/j.issn.1009-3044.2007.18.072

基于DOM和网页模板的Web信息抽取

引用

摘要：

文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.

关键词：信息抽取、文档结构模型、网页模板、抽取规则、相对路径

所属期刊栏目：3

分类号：TP311(计算技术、计算机技术)

在线出版日期：2007-12-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1617-1619

英文信息展示

期刊专题