1 什么是SparkSQL

Spark SQL是Spark用于结构化数据处理的Spark模块。

SparkSQL的前身是Shark，是一个将Spark和Hive结合的框架，利用hive SQL简化的思想，将RDD进行简化。Shark的出现，是SQL-on-Hadoop的性能比Hive有了10-100倍的提高。

随着Spark的发展，Shark的发展受制于Hive，在此基础上发展出SparkSQL和Hive on Spark，SparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive。

SparkSQL可以用于简化可伸缩的分布式数据集RDD（Resilient Distributed Dataset）的开发，提高开发效率，且执行效率飞快。

...

2 哪些组件用到了SparkSQL

自助ETL\ETL高级查询中的【派生列】、【过滤】以及【SQL脚本】（即将更名为Spark SQL）组件，支持输入spark SQL函数或语句，完成对数据进行处理或查询的任务。

序号	功能模块	组件
1	自助ETL	【派生列】、【过滤】以及【SQL脚本】
2	数据模型-ETL高级查询	【派生列】、【过滤】以及【SQL脚本】

...

3 SparkSQL语法说明

序号	分类	链接
1	数学和统计运算符、函数	数学和统计运算符、函数
2	逻辑运算符、条件判断函数	逻辑运算符、条件判断函数
3	日期时间函数	日期时间函数
4	数据类型转换函数	数据类型转换函数
5	字符串处理函数	字符串处理函数
6

转换和格式化函数7

转换和格式化函数

开窗函数

78

7

其他函数

...

4 功能入口

1）、【新建模型】并且在模型中增加【 1、【新建模型】并且在模型中增加【ETL高级查询】。

Image ModifiedImage Modified

2）、进入到 2、进入到 ETL高级查询：

先从左侧拖入【Excel文件】，上传本地excel文件，点击执行该节点。示例数据订单数据.xlsx

Image Modified

拖入【读取Excel sheet】节点，再 执行该节点：

Image Modified

拖入【列选择】组件，连接组件，再执行该节点：

Image ModifiedImage Modified

拖入【派生列】，连接组件，再 执行该节点：

Image Modified

点击【派生列配置】，进入配置面板，输入相关SparkSQL函数，参考：各函数说明

Image Modified

页面树结构

版本比较

旧版本 11

新版本当前版本

标识

1 什么是SparkSQL

2 哪些组件用到了SparkSQL

3 SparkSQL语法说明

4 功能入口

关注我们

服务支持

页面树结构

页面历史

版本比较

旧版本 11

新版本 当前版本

标识

1 什么是SparkSQL

2 哪些组件用到了SparkSQL

3 SparkSQL语法说明

4 功能入口

新版本当前版本