ETL高级查询-功能节点

数据源

Smartbi支持从以下几个数据来源中导入数据：

节点	说明
文本数据源	文本数据源是指将HDFS读取的csv等数据文件导入到Smartbi中。
FTP数据源	FTP数据源是指通过FTP方式读取数据。
Kafka数据源	Kafka数据源是指从kafka读取数据。
关系数据源	关系数据源是指从Smartbi关系数据源中读取的库表数据。
示例数据源	示例数据源是指从系统中读取内置的示例数据源。
数据查询	数据查询是指新建或编辑数据模型的私有查询，然后将新建的私有查询转换为表放到高速缓存库中作为数据源。
数据集	数据集是指从Smartbi中读取数据集中的数据。如果是新用户，则不显示数据集节点；如果是老用户版本升级已有数据集节点，则节点资源区显示有数据集节点。
Excel文件/读取Excel sheet	Excel文件数据源是指将Excel文件中的数据导入到Smartbi中。

高级ETL查询输出到MPP节点不支持数据源有：Presto+Hive、星环；已支持的数据源有：Clickhouse、Vertica 、Infobright。

数据查询

概述

数据查询是指新建或编辑数据模型的私有查询（SQL查询、即席查询、脚本查询、存储过程查询），然后将新建的私有查询转换为表放到高速缓存库中作为数据源。

数据查询的数据存储在高速缓存库中，所以高速缓存库配置的URL建议使用IP的方式连接，使用域名的方式连接有可能连接不上该数据库（不推荐）。

输入/输出

输入	没有输入端口。
输出	只有一个输出端口，用于输出数据到下一节点资源。

参数配置

设置数据查询的参数：

设置说明如下：

参数	说明
请选择数据查询类型	数据查询类型包括：SQL查询、即席查询、脚本查询、存储过程查询。
新建/编辑数据查询	点击按钮新建或编辑数据查询，详情请参考即席查询。如果是新建ETL高级查询，按钮显示的是“新建数据查询”；如果是其他数据集转换ETL高级查询或编辑数据查询节点，按钮显示为“编辑数据查询”。数据查询类型为即席查询时，支持修改字段的别名，只对当前ETL高级查询生效。

输出到MPP

输出到MPP节点是将结果数据保存到Smartbi的高速缓存库的表中，不能删除此节点。

数据预处理

ETL高级查询拥有强大的数据处理功能，对各种结构化数据，可进行排序、去重、映射、行列合并等处理，满足用户日常数据处理的需要。

使用数据预处理可以：

1、提高数据的质量。

2、让数据更好地适应特定的挖掘技术或工具。

节点	说明
采样	按照某种规则从数据集中挑选样本数据。
SMOTE	通过对少数样本的分析可以合成新的样本，是一种过采样技术。
拆分	将原始样本集按照训练集和测试集的方式拆分为两个子集。
过滤	根据用户需求，通过写SQL语句(片段)的方式，对数据集中指定字段进行条件筛选过滤。
列选择	用于从输入数据集中选取指定的数据字段。
空值处理	将空值替换为均值、最大频数或者用户自定义的值等，实现空值的填充或者过滤。
值替换	用于对字段中指定的值进行替换。
数据清洗	用于规范化字符串，可移除字符串中空格、标点符号、字母、数字等不必要的字符，或设置大小写方式。
合并列/合并行	将两张表的数据按列或按行合并，组成新表。
元数据编辑	元数据编辑支持对数据集中的字段进行重新命名或者修改数据类型。
JOIN	JOIN是基于连接字段和给定的连接方式，进行两个数据集字段的组合后得到新的数据表。
行选择	行选择是根据不同的筛选或者删除条件，选择不同数量的行。
去除重复值	去除重复值是用于删除数据集中的重复行（假如有两行相同，保留其中一行）。
排序	排序节点可实现对单个字段或多个字段组合的升序或降序排序。
增加序列号	增加序列号节点是在数据表第一列追加ID列。
聚合	聚合可根据用户的需求对数据进行各种聚合运算。
拆分列	将字符串字段的内容进行分割。
派生列	派生列节点是用于在数据集中生成可行的新特征字段。
行转列/列转行	将数据表中的行转换成列或将列转换成行。

脚本模块

脚本模块是通过手动输入SQL或Python语言对数据进行数据处理、分析或查询。

节点	说明
SQL脚本	SQL脚本支持手动输入SQL语言完成对数据进行处理和查询的任务。
PYTHON脚本	支持用Python语言编程实现数据处理、数据分析等功能。

关注我们

服务支持

页面树结构

ETL高级查询-功能节点

数据源

数据查询

输出到MPP

数据预处理

脚本模块