DOI：10.11896/j.issn.1002-137X.2019.05.022

基于RDD非序列化本地存储的Spark存储性能优化

引用

摘要：

Spark框架被越来越多的企业用作大数据的计算框架,但随着现有服务器的可用内存资源增加,Spark并不能与新环境相匹配.Spark运行在Java虚拟机上,随着堆空间内存被大量使用,Java虚拟机通过回收内存来为新对象提供空间(垃圾回收机制,GC)的时间开销占Spark作业总耗时的比例显著增加,但Spark作业的效率并未随着可用内存的增加而保持一定比例的提升.在使用非堆(本地)内存存储模式后,GC开销问题得以缓解,但缓存数据的序列化开销成为新的矛盾点.文中利用本地存储方式解决GC问题,同时通过减少序列化开销以加快作业速度,提出并修改了Spark的存储结构,改进了RDD的淘汰机制和缓存方式,将去序列化的数据引入到本地内存中,在保持较低的垃圾回收开销的同时,降低了序列化的开销.实验结果表明,与原Spark的堆上存储方式相比,非序列化的本地存储方法在单结点、大内存的服务器上的GC时间缩短到5％～30％,同时,序列化开销显著降低,吞吐量得到提升,作业耗时缩短8％以上.

关键词：Spark、垃圾回收、序列化、存储系统、本地内存

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

在线出版日期：2019-06-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：143-149

英文信息展示

期刊专题