DOI：10.3969/j.issn.1006-2475.2009.01.012

一种自动抽取Web信息方法的设计与实现

引用

摘要：

针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.

关键词：Web信息抽取、Web抽取策略、自主学习、抽取规则

分类号：TP311(计算技术、计算机技术)

在线出版日期：2009-03-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：38-40,48

英文信息展示

期刊专题