10.16251/j.cnki.1009-2307.2017.02.024
格网化的位置微博数据抓取与人群信息提取
空间位置信息通常代表了设备使用人群的地理空间活动特征,客观体现人群活动的时空分布.针对现有的微博数据抓取方法由于普通用户的访问限制易导致采集的目标数据缺失的问题,该文提出了一种目标区域空间划分策略.在数据抓取之前对目标区域实行格网化,进而实现数据的同时抓取.通过统计分析基于网格单元抓取的位置微博数据,从中提取出人群活动信息,结合位置徽博数据所在的兴趣点类型,统计分析了位置微博用户的时空分布和活动特征.这种方法缩小了采集区域,可实现并行高效的位置徽博抓取,并深证了采集范围的重叠,最大限度地保证采集数据的完整性.
格网、位置微博、数据抓取、人群活动、信息提取
42
P208(一般性问题)
国家自然科学基金项目41201412,41471414;特色研究所培育建设服务项目TSYJS03;资源与环境信息系统国家重点实验室青年人才培养基金项目O8R8B640KA
2017-03-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
125-129