互联网金融数据抓取方法研究
介绍了金融数据采集工具软件中用到的数据抓取方法.该方法通过微软公司MSXML组件中的XMLHTTP对象获取网页文本,并将待提取数据文本划分为3个层次:数据块、数据行和数据字段,逐层截取.对每个数据层次给出了7种不同的标识类型,以方便对各层次数据进行标识.为达到灵活和精确提取数据的目的,正则表达式被引入.以新浪网的金融网页为实际案例,阐述了数据抓取过程及结果,并提供了简化的VBA示例程序,结果表明,该方法能有效方便地应用于金融实证研究数据的采集.
互联网、数据采集、金融、识别标识、正则表达式
32
TP311.11(计算技术、计算机技术)
湖南大学"中央高校基本科研业务费专项"基金项目531107040018
2011-09-05(万方平台首次上网日期,不代表论文的发表时间)
共4页
1829-1832