10.3969/j.issn.1673-629X.2012.05.022
基于Web内容的一种数据自动抽取方法
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp.Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态htnl文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息.
Web抽取、html、锚、变换、Asp. Net
22
TP301(计算技术、计算机技术)
江苏省公益性行业科研专项GYHY201106037
2012-07-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
87-89,93