自助ETL-界面介绍

ETL工作流必须以数据源（输入）为起点，以目标源（输出）为终点：从数据源中抽取数据，然后利用内置数据预处理（转换）节点进行数据加工处理，再将处理后的数据输出到目标源中。

数据源（输入）支持的数据库有：MySQL，Oracle，Clickhouse，DB2，SQL Server，Vertica，Inforbright，Presto，Hive，星环-Inceptor，Postgresql，GreenPlum，Gauss100，Gauss200，Gbase 8A，Gbase 8S，Gbase 8T，达梦6，达梦7，Sybase，Hana，Aliyun AnalyticDB，Aliyun MaxCompute，MariaDB，华为Fusioninsight，Teradata、Teradata_V12、神通（单节点/集群）（信创版支持）、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin（麒麟）、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase （信创版支持）、OceanBase_Oracle、SelectDB（信创版支持）、SparkSQL、Other、TIDB、MogDB（信创版支持）等数据库。关于数据源的更多信息请参见数据源章节、数据源汇总。
数据预处理（转换）方法包含：采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见数据预处理章节。
目标源（输出）支持的数据库有：MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环（用户名密码方式）、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)、SelectDB、TIDB、MogDB等。关于目标源的更多信息请参见目标源章节、数据源汇总。

2. 功能入口

ETL工作流开发界面的操作入口：

系统导航栏中选择 数据准备，在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项，进入“新建自助ETL”界面：

3. 界面介绍

3.1 ETL工作流界面

ETL流程界面，用于开发工作流。如下图所示：

界面主要分为如下几个区域：

1、工具栏：用于对当前流程进行的操作，详情请参见工具栏。
2、节点面板：显示当前流程可拖拽使用的节点，顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍。
3、画布区：用于开发ETL工作流。
4、节点配置区：用于对画布中所选节点的参数和属性进行配置。
5、数据面板：用于查看选择的节点执行后的输出数据。

4. 工作流操作

4.1 工具栏

工具栏中有如下按钮，用于支持工作流的相关操作：

这些按钮从左至右说明如下：

按钮	说明
添加节点	点击后弹出”添加节点“面板，选择要添加到画布中的节点。
撤销	撤销最近一步操作。
重做	恢复最近一步操作。
保存	保存：用于保存当前ETL流程。另存为：用于将当前ETL流程另存一份到其它路径下。
运行	运行：从头开始运行所有节点。运行(跳过成功节点)：从头开始运行所有节点，但是跳过上次运行成功的节点。运行当前节点：只运行画布中当前选中的节点。从当前节点运行：从画布中当前选中的节点开始运行，直到流程结束。运行到当前节点：从流程开始节点运行，直接画布中当前选中的节点。运行到当前节点(跳过成功节点)：从流程开始节点运行，直接画布中当前选中的节点，但是跳过上次运行成功的节点。
定时运行	用于修改当前ETL流程的调度设置。ETL调度详情请参见抽取监控章节相关内容。
全量/小批量	全量（默认）：运行数据源节点包含的全部数据；小批量：运行节点前1000条数据，当数据量较大时选择小批量运行，可减少用户等待时间。小批量功能目前只支持关系数据源与数据查询节点；需要配置缓存才能使用小批量功能，请参考缓存；设置为小批量试运行不影响计划任务，计划任务还是按全量执行。
...	参数管理：用于配置当前ETL的参数，可通过参数筛选用户需要的数据，实现增量抽取等场景，详情请参考数据挖掘-参数设置。清除缓存：点击后清除缓存的节点数据。查看运行历史：用于查看定制的ETL工作流执行历史的相关信息。查看日志：用于记录自助ETL运行状态信息。导出流程定义：用于导出流程定义。导入流程定义：用于导入流程定义。

4.2 设置面板

在“设置”面板上，当画布中无节点选中时显示的是流程本身的属性。

设置项	说明
缓存策略	缓存策略：每个节点执行后，结果都会缓存起来，下游节点执行的时候，直接从缓存中获取上游节点执行结果；只有启用了缓存，节点的右键菜单中执行该节点，从该节点开始执行才是可用状态。缓存作用：缓存：系统会更加稳定可靠。因为启用缓存，每个节点执行只需要从缓存中获取上游节点执行结果，不需要重新计算上游节点逻辑。不缓存：每个节点执行需要把上游节点逻辑重算一次，越到后面的节点，累积的计算逻辑越多，执行的时间越长，越容易出现卡死现象。
节点自动连线	启用：把一个节点拖到另外一个节点旁边时自动连线。禁用：只能手动拖拽建立两个节点间的连线。
属性	别名：当前节点的别名。描述：对当前节点的详细描述。

4.3 右键菜单

各节点的右键菜单支持相关操作。节点资源的右键菜单如下：

该右键菜单各项的说明如下：

右键菜单	说明
执行到此处	表示运行工作流到当前节点资源结束。
执行该节点	表示运行工作流时到当前节点资源结束。
从当前节点开始执行	表示运行工作流时从当前节点资源开始执行。
查看日志	用于查看当前节点资源的运行日志。
复制	用于复制选择的节点，与节点右键菜单的“粘粘”结合使用。
删除	表示删除当前节点资源。
添加备注	对实验或节点添加备注信息进行记录。
查看输出	用于查看当前节点资源的输出列表。
粘粘	在空白的画布区任意位置上粘贴复制的节点。
清空备注	清空当前实验上的所有备注

4.4 画布工具

对画布进行操作，从左到右依次是：缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。

4.5 数据面板

用于查看选择的节点运行后的输出数据。打开数据面板，点击节点可查看节点的输出数据。

各项说明如下：

设置项	说明
节点状态	节点执行成功，则数据面板显示对应节点的数据预览。节点未执行或执行报错，则数据面板提示“暂无数据”。
选择显示列	临时选择要显示的数据列，这里选择的结果只是为了方便查询和操作，不会永久保存。
真名/别名	选择显示表头真名或别名。
下载数据	下载预览的数据到本地。此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全，只能下载100条数据，不支持下载全量数据
显示	显示当前节点运行结果的统计信息，有多少列、多少行数据。

ETL工作流必须以数据源（输入）为起点，以目标源（输出）为终点：从数据源中抽取数据，然后利用内置数据预处理（转换）节点进行数据加工处理，再将处理后的数据输出到目标源中。

数据源（输入）支持的数据库有：MySQL，Oracle，Clickhouse，DB2，SQL Server，Vertica，Inforbright，Presto，Hive，星环-Inceptor，Postgresql，GreenPlum，Gauss100，Gauss200，Gbase 8A，Gbase 8S，Gbase 8T，达梦6，达梦7，Sybase，Hana，Aliyun AnalyticDB，Aliyun MaxCompute，MariaDB，华为Fusioninsight，Teradata、Teradata_V12、神通（单节点/集群）（信创版支持）、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin（麒麟）、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase （信创版支持）、OceanBase_Oracle、SelectDB（信创版支持）、SparkSQL、Other、TIDB、MogDB（信创版支持）等数据库。关于数据源的更多信息请参见数据源章节。
数据预处理（转换）方法包含：采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见数据预处理章节。
目标源（输出）支持的数据库有：MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环（用户名密码方式）、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)、SelectDB、TIDB、MogDB等。关于目标源的更多信息请参见目标源章节。

2. 功能入口

ETL工作流开发界面的操作入口：

系统导航栏中选择 数据准备，在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项，进入“新建自助ETL”界面：

3. 界面介绍

3.1 ETL工作流界面

ETL流程界面，用于开发工作流。如下图所示：

界面主要分为如下几个区域：

1、工具栏：用于对当前流程进行的操作，详情请参见工具栏。
2、节点面板：显示当前流程可拖拽使用的节点，顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍。
3、画布区：用于开发ETL工作流。
4、节点配置区：用于对画布中所选节点的参数和属性进行配置。
5、数据面板：用于查看选择的节点执行后的输出数据。

4. 工作流操作

4.1 工具栏

工具栏中有如下按钮，用于支持工作流的相关操作：

这些按钮从左至右说明如下：

按钮	说明
添加节点	点击后弹出”添加节点“面板，选择要添加到画布中的节点。
撤销	撤销最近一步操作。
重做	恢复最近一步操作。
保存	保存：用于保存当前ETL流程。另存为：用于将当前ETL流程另存一份到其它路径下。
运行	运行：从头开始运行所有节点。运行(跳过成功节点)：从头开始运行所有节点，但是跳过上次运行成功的节点。运行当前节点：只运行画布中当前选中的节点。从当前节点运行：从画布中当前选中的节点开始运行，直到流程结束。运行到当前节点：从流程开始节点运行，直接画布中当前选中的节点。运行到当前节点(跳过成功节点)：从流程开始节点运行，直接画布中当前选中的节点，但是跳过上次运行成功的节点。
定时运行	用于修改当前ETL流程的调度设置。ETL调度详情请参见抽取监控章节相关内容。
全量/小批量	全量（默认）：运行数据源节点包含的全部数据；小批量：运行节点前1000条数据，当数据量较大时选择小批量运行，可减少用户等待时间。小批量功能目前只支持关系数据源与数据查询节点；需要配置缓存才能使用小批量功能，请参考缓存；设置为小批量试运行不影响计划任务，计划任务还是按全量执行。
...	参数管理：用于配置当前ETL的参数，可通过参数筛选用户需要的数据，实现增量抽取等场景，详情请参考数据挖掘-参数设置。清除缓存：点击后清除缓存的节点数据。查看运行历史：用于查看定制的ETL工作流执行历史的相关信息。查看日志：用于记录自助ETL运行状态信息。导出流程定义：用于导出流程定义。导入流程定义：用于导入流程定义。

4.2 设置面板

在“设置”面板上，当画布中无节点选中时显示的是流程本身的属性。

设置项	说明
缓存策略	缓存策略：每个节点执行后，结果都会缓存起来，下游节点执行的时候，直接从缓存中获取上游节点执行结果；只有启用了缓存，节点的右键菜单中执行该节点，从该节点开始执行才是可用状态。缓存作用：缓存：系统会更加稳定可靠。因为启用缓存，每个节点执行只需要从缓存中获取上游节点执行结果，不需要重新计算上游节点逻辑。不缓存：每个节点执行需要把上游节点逻辑重算一次，越到后面的节点，累积的计算逻辑越多，执行的时间越长，越容易出现卡死现象。
节点自动连线	启用：把一个节点拖到另外一个节点旁边时自动连线。禁用：只能手动拖拽建立两个节点间的连线。
属性	别名：当前节点的别名。描述：对当前节点的详细描述。

4.3 右键菜单

各节点的右键菜单支持相关操作。节点资源的右键菜单如下：

该右键菜单各项的说明如下：

右键菜单	说明
执行到此处	表示运行工作流到当前节点资源结束。
执行该节点	表示运行工作流时到当前节点资源结束。
从当前节点开始执行	表示运行工作流时从当前节点资源开始执行。
查看日志	用于查看当前节点资源的运行日志。
复制	用于复制选择的节点，与节点右键菜单的“粘粘”结合使用。
删除	表示删除当前节点资源。
添加备注	对实验或节点添加备注信息进行记录。
查看输出	用于查看当前节点资源的输出列表。
粘粘	在空白的画布区任意位置上粘贴复制的节点。
清空备注	清空当前实验上的所有备注

4.4 画布工具

对画布进行操作，从左到右依次是：缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。

4.5 数据面板

用于查看选择的节点运行后的输出数据。打开数据面板，点击节点可查看节点的输出数据。

各项说明如下：

设置项	说明
节点状态	节点执行成功，则数据面板显示对应节点的数据预览。节点未执行或执行报错，则数据面板提示“暂无数据”。
选择显示列	临时选择要显示的数据列，这里选择的结果只是为了方便查询和操作，不会永久保存。
真名/别名	选择显示表头真名或别名。
下载数据	下载预览的数据到本地。此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全，只能下载100条数据，不支持下载全量数据
显示	显示当前节点运行结果的统计信息，有多少列、多少行数据。

页面树结构

1. ETL工作流

2. 功能入口

3. 界面介绍

3.1 ETL工作流界面

4. 工作流操作

4.1 工具栏

4.2 设置面板

4.3 右键菜单

4.4 画布工具

1. ETL工作流

2. 功能入口

3. 界面介绍

3.1 ETL工作流界面

4. 工作流操作

4.1 工具栏

4.2 设置面板

4.3 右键菜单

4.4 画布工具

关注我们

服务支持