基于统计年鉴和网络大数据的房屋竣工面积估算
选择北京市年鉴中的若干数据指标,构建经济社会因子体系,采用偏最小二乘回归、LASSO回归和RBF神经网络3种模型,对2017和2018年北京市房屋竣工面积进行预测.由于各年鉴数据统计渠道和指标粒度不同,且2019年建筑业部分指标数据的公布存在延迟,难以用模型拟合的方式对该年度竣工面积做出估计.因此,利用爬虫技术获取高质量数据,并深入挖掘网络数据中的信息,通过互联网大数据估算北京市房屋竣工面积.首先,建立基于网络大数据的建筑数据获取框架,通过调用服务接口和关键字搜索等技术,爬取北京地区8类建筑物的属性数据;然后,利用正则表达式和条件过滤,对网页返回的HTML非结构化数据进行抽取和清洗;最后,对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算.
竣工面积;回归分析;网络爬虫;模板抽取
57
国家重点研发计划2018YFC0704300
2021-10-19(万方平台首次上网日期,不代表论文的发表时间)
共11页
804-814