10.3969/j.issn.1673-629X.2016.09.041
一种基于知识工程的DeepWeb信息抽取方法
DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTML DOM ( Document Object Model)树解析算法,自动或半自动方式匹配出符合页面模式、页面HTML结构以及目标信息源等元素的模板,来对Deep-Web中的信息进行定位,从而得到页面中的自由文本,结构化和半结构化数据。实验以大量嵌套结构的网站数据作为数据来源,验证了抽取方法的有效性。
DeepWeb、JavaScript技术、嵌套结构、DOM树、抽取模型
26
TP301(计算技术、计算机技术)
新疆维吾尔自治区自然科学基金2014211B023
2016-10-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
183-186,191