DOI：10.3969/j.issn.1673-629X.2012.05.022

基于Web内容的一种数据自动抽取方法

引用

摘要：

Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态htnl文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息.

关键词：Web抽取、html、锚、变换、Asp. Net

所属期刊栏目：22

分类号：TP301(计算技术、计算机技术)

资助基金：江苏省公益性行业科研专项GYHY201106037

在线出版日期：2012-07-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：87-89,93

英文信息展示

期刊专题