基于无秩树自动机的信息抽取技术研究

引用

摘要：

针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.

关键词：无秩树自动机、信息抽取、结构(半结构)化文档、(k、l)-contextual树、文法推理

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

在线出版日期：2010-03-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：5506-5509

英文信息展示

期刊专题