DOI：10.3969/j.issn.1001-3695.2009.02.051

基于模板的Web信息自动提取方法

引用

摘要：

为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法.该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储.实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要.

关键词：信息提取、模板化、自动识别、分隔标记、结构化

所属期刊栏目：26

分类号：TP393.04(计算技术、计算机技术)

资助基金：国家"863"计划资助项目07AA01Z440;国家"242"信息安全计划资助项目2007B27

在线出版日期：2009-04-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：570-572,582

英文信息展示

期刊专题