DOI：10.3969/j.issn.1673-629X.2016.09.041

一种基于知识工程的DeepWeb信息抽取方法

引用

摘要：

DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTML DOM ( Document Object Model)树解析算法,自动或半自动方式匹配出符合页面模式、页面HTML结构以及目标信息源等元素的模板,来对Deep-Web中的信息进行定位,从而得到页面中的自由文本,结构化和半结构化数据。实验以大量嵌套结构的网站数据作为数据来源,验证了抽取方法的有效性。

关键词：DeepWeb、JavaScript技术、嵌套结构、DOM树、抽取模型

所属期刊栏目：26

分类号：TP301(计算技术、计算机技术)

资助基金：新疆维吾尔自治区自然科学基金2014211B023

在线出版日期：2016-10-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：183-186,191

英文信息展示

期刊专题