10.16251/j.cnki.1009-2307.2019.07.019
网络爬虫的专题机构数据空间信息采集方法
针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法.在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取.通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法.
泛在网络、空间信息采集、网络爬虫、矩阵算法、决策树
44
TP391(计算技术、计算机技术)
国家自然科学基金青年科学基金项目41301433;中央高校基本科研业务费专项2017XKQY019
2019-08-09(万方平台首次上网日期,不代表论文的发表时间)
共7页
122-127,140