DOI：10.3969/j.issn.1009-6868.2016.02.006

Spark计算引擎的数据对象缓存优化研究

引用

摘要：

研究了Spark并行计算集群对于内存的使用行为，认为其主要工作是通过对内存行为进行建模与分析，并对内存的使用进行决策自动化，使调度器自动识别出有价值的弹性分布式数据集（RDD）并放入缓存。另外，也对缓存替换策略进行优化，代替了原有的近期最少使用（LRU）算法。通过改进缓存方法，提高了任务在资源有限情况下的运行效率，以及在不同集群环境下任务效率的稳定性。

关键词：并行计算、缓存、Spark、RDD

所属期刊栏目：22

分类号：TN929.5

资助基金：国家高技术研究发展“863”计划2013AA01A213；国家自然科学基金61433008、61373145、61170210、U1435216；国家核高基重大专项2013zx01039-002-002

在线出版日期：2016-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：23-27

英文信息展示

期刊专题