DOI：10.3969/j.issn.1009-3044.2009.26.001

基于XML的网页信息提取系统的研究与设计

引用

摘要：

该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据.该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式.在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据.

关键词：XML、数据抽取、文档解析

所属期刊栏目：5

分类号：TP391(计算技术、计算机技术)

在线出版日期：2009-11-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：7327-7329

英文信息展示

期刊专题