10.3969/j.issn.1000-3428.2009.22.020
基于数据区域发现的信息抽取规则生成方法
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则.实验结果显示,该方法具有较高的抽取准确率和查全率.
信息抽取、抽取规则生成、Web数据区域、树匹配
35
TP311.12(计算技术、计算机技术)
2010-01-18(万方平台首次上网日期,不代表论文的发表时间)
共3页
59-61