10.3969/j.issn.1009-3044.2007.18.072
基于DOM和网页模板的Web信息抽取
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.
信息抽取、文档结构模型、网页模板、抽取规则、相对路径
3
TP311(计算技术、计算机技术)
2007-12-24(万方平台首次上网日期,不代表论文的发表时间)
共3页
1617-1619