DOI：10.3969/j.issn.1673-629X.2009.09.011

基于树结构的Web信息抽取

引用

摘要：

信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析.文中提出了一种先将HTML转化为XML形式,再提取信息的方法.XML是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离.数据可被XML唯一标识,从而有利于用户对数据的组织和检索.这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度.

关键词：Web、信息提取、XML数据文档、树结构

所属期刊栏目：19

分类号：TP311(计算技术、计算机技术)

资助基金：国家科技计划资助项目2005DIB6J174

在线出版日期：2009-10-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：38-41

英文信息展示

期刊专题