互联网金融数据抓取方法研究

引用

摘要：

介绍了金融数据采集工具软件中用到的数据抓取方法.该方法通过微软公司MSXML组件中的XMLHTTP对象获取网页文本,并将待提取数据文本划分为3个层次:数据块、数据行和数据字段,逐层截取.对每个数据层次给出了7种不同的标识类型,以方便对各层次数据进行标识.为达到灵活和精确提取数据的目的,正则表达式被引入.以新浪网的金融网页为实际案例,阐述了数据抓取过程及结果,并提供了简化的VBA示例程序,结果表明,该方法能有效方便地应用于金融实证研究数据的采集.

关键词：互联网、数据采集、金融、识别标识、正则表达式

所属期刊栏目：32

分类号：TP311.11(计算技术、计算机技术)

资助基金：湖南大学"中央高校基本科研业务费专项"基金项目531107040018

在线出版日期：2011-09-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：1829-1832

英文信息展示

期刊专题