Spark参数重要性研究
随着大数据时代的到来,Spark因其基于内存的计算方式,已经成为当前最流行的分布式计算框架之一.为了提升易用性,Spark为用户提供了约200个可配置参数,这些参数控制着任务的运行.然而,Spark参数空间巨大,用户经常无法合理选择哪些参数进行配置.针对此问题,本文通过实验对不同Spark参数与任务运行时间之间的关系进行了详细分析,对Spark参数重要性进行研究.实验表明,不同参数对任务影响程度差异巨大,这对开发者如何选择参数进行配置具有指导意义.
Spark、分布式、配置参数、任务运行时间、重要性
16
TP311.13(计算技术、计算机技术)
2020-03-25(万方平台首次上网日期,不代表论文的发表时间)
共3页
247-249