10.6041/j.issn.1000-1298.2021.08.019
森林生态站大数据快速存储与索引方法
针对森林生态站中大量图像、视频、GIS数据等非结构化数据以及生态指标等结构化数据存储效率低、检索性能差的问题,提出了基于Hadoop和HBase的森林生态站大数据存储框架.基于所提出的框架,给出了森林生态数据存储业务流程,并对森林生态大数据平台涉及的核心技术进行了优化:①设计预分区算法保证数据在集群中均匀分布.②根据生态数据特点科学设计了RowKey,实现生态数据的快速检索.③针对原生HBase不支持多条件查询问题,设计基于索引数据和服务器性能评估的ElasticSearch索引分片放置策略,以此基于ElasticSearch的二级非主键索引技术优化多条件检索HBase生态数据库.④针对生态站海量小图像存储困难问题,提出基于数据站点及时间关联性的打包合并策略.⑤解析GIS数据使之进行高效存储.通过实验对以上理论进行验证.结果表明,ElasticSearch索引分片放置策略比默认分片策略的查询时间平均减少20 ms,比基于改变ElasticSearch评分策略的查询时间平均减少20 ms.结构化数据规模为1×108条时,系统的检索时间为1. 045 s,比原生HBase检索速度提升3. 99倍,在非结构化数据为1×107条时,采用数据站点及时间关联性的打包小图像策略是基于SequenceFile合并效率的1. 15倍,是原生HBase的1. 79倍;在1×104次并发用户的情况下,优化后的每秒查询数是原来的1. 88倍,每秒吞吐量是优化前的1. 74倍,系统响应时间比优化前降低69. 5% .结果表明,本文所提出的方案在集群负载均衡、海量结构化和非结构化数据检索效率以及系统吞吐量等方面都有了明显的性能提升,为森林生态数据的存储和管理提供了必要的理论基础和技术实现.
森林生态;大数据;快速存储;数据索引;分布式平台
52
TP392(计算技术、计算机技术)
中央高校基本科研业务费专项资金项目;国家自然科学基金项目
2021-09-07(万方平台首次上网日期,不代表论文的发表时间)
共11页
195-204,212