10.3969/j.issn.1673-629X.2009.09.011
基于树结构的Web信息抽取
信息提取就是从大量的数据中检索出有用的信息,但一般的Web信息提取技术都是基于对Web上HTML文档的分析.文中提出了一种先将HTML转化为XML形式,再提取信息的方法.XML是用于描述在Intemet网上用于数据交换的数据文档的格式的一种语言标准,它将结构、内容和表现分离.数据可被XML唯一标识,从而有利于用户对数据的组织和检索.这种方法能够达到较高的正确率,同时随着文档的增大,方法也能够保证线性的时间复杂度.
Web、信息提取、XML数据文档、树结构
19
TP311(计算技术、计算机技术)
国家科技计划资助项目2005DIB6J174
2009-10-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
38-41