DOI：10.3969/j.issn.1006-3404.2018.03.017

Spark SQL优化器系统Catalyst的深入解析和应用

引用

摘要：

Spark SQL是Spark生态系统中的一个新的模块,它将关系处理与函数编程API集成在Spark中.Spark SQL为程序员提供了利用关系处理长处,如声明性查询和优化存储,并允许SQL用户在Spark中调用复杂的分析库,例如,机器学习.为了使Spark SQL易于添加组合规则,控制代码生成,和制定扩展点,Spark生态系统引入了一个基于Scala编程语言功能开源的高度可扩展的优化器Catalyst.值得一提的是,Catalyst还允许构建各种功能,包括JSON的模式推断、机器学习类型选择,以及在数据收集和分析中对Spark SQL的核心算子Join的妥善应用.本文详细分析了Spark SQL的优化器系统Catalyst的新特点和功能,应用实例提出一系列适合于Spark SQL优化器系统Catalyst支持的核心优化算子Join的优化应用方法,提供了实用于Catalyst的功能流程图和Join的应用场景逻辑框图.

关键词：Spark、Spark Ecosystem、Spark SQL、Catalyst

在线出版日期：2018-11-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：67-72,75

期刊专题