10.3969/j.issn.1006-9348.2021.06.092
基于网络爬虫的网页大数据抓取方法仿真
为了提高网页大数据抓取效率,解决传统抓取方法误差大的问题,提出了基于网络爬虫的网页大数据抓取方法.首先分析网络爬虫运行的基本流程,按流程提取大数据关键特征,然后根据特征提取结果提出基于网络爬虫的数据抓取策略.经计算得到数据关键特征,从而选择广度优先策略抓取数据信息,并利用相重新构建相空间的方式得到爬虫维度,引入关联维数值完成网页大数据抓取,对数据关键特征完成抓取任务.通过仿真结果表明,所提方法对网页大数据的抓取率更好、耗时更短,与其它方法相比具有较高的鲁棒性.
大数据抓取、网络爬虫、特征、相空间、关联维
38
TP309.2(计算技术、计算机技术)
2021-07-26(万方平台首次上网日期,不代表论文的发表时间)
共5页
439-443