10.3969/j.issn.1000-1565.2001.04.023
基于样本实例的Web信息抽取
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.
HTML、模式、抽取器、信息抽取、Web查询
21
TP391;TP393(计算技术、计算机技术)
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
431-437