10.3969/j.issn.1000-3428.2011.06.023
航班信息抽取规则的自动生成技术
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位.由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作.为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则.实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率.
Web信息提取、抽取规则、语义TABLE树、贪心算法
37
TP311(计算技术、计算机技术)
国家"863"计划基金资助重点项2006AA12A106;中国民航大学科研基金资助项目07Kkym04
2011-08-04(万方平台首次上网日期,不代表论文的发表时间)
共3页
65-67