10.3969/j.issn.1009-3044.2009.26.001
基于XML的网页信息提取系统的研究与设计
该文提出了一种面向由XML描述的Web文档的基于用户主题信息的模式和数据抽取方法,它利用学习算法从样本文档中提取规则,然后使用匹配算法从目标文档中抽取出数据.该文使用一种改进的解析方法对XML文档进行解析,在模式抽取时使用了顺序覆盖算法从样本XML文档集中训练出模式.在数据抽取算法中,数据抽取算法从解析后的XML文档树中寻找用户所需的信息,它可以高效、准确地找到用户所需数据.
XML、数据抽取、文档解析
5
TP391(计算技术、计算机技术)
2009-11-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
7327-7329