页面历史

ETL工作流必须以数据源为起点，以目标源为终点：从数据源中抽取需要进行处理的数据，通过拖拽内置的预处理方法，之后将处理过的数据存储到目标源中。ETL工作流必须以数据源（输入）为起点，以目标源（输出）为终点：从数据源中抽取数据，然后利用内置数据预处理（转换）节点进行数据加工处理，再将处理后的数据输出到目标源中。

数据源中支持的关系数据源有：

Mysql,，Oracle，Clickhouse，DB2，SQL

数据源（输入）支持的数据库有：MySQL，Oracle，Clickhouse，DB2，SQL Server，Vertica，Inforbright，Presto，Hive，星环-

inceptor，Postgresql，GreenPlum，Gauss100，Gauss200，Gbase

Inceptor，Postgresql，GreenPlum，Gauss100，Gauss200，Gbase 8A，Gbase 8S，Gbase 8T，达梦6，达梦7，Sybase，Hana，Aliyun AnalyticDB，Aliyun

MaxComputeTeradata、Teradata

MaxCompute，MariaDB，

华为Fusioninsight，

华为Fusioninsight，Teradata、Teradata_V12、神通（单节点/

集群）、Kingbase、Kingbase

集群）（信创版支持）、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin（麒麟）、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)

、OceanBase、OceanBase_Oracle、SelectDB、SparkSQL、Other、TIDB、MogDB

、OceanBase （信创版支持）、OceanBase_Oracle、SelectDB（信创版支持）、SparkSQL、Other、TIDB、MogDB（信创版支持）等数据库。关于数据源的更多信息请参见数据源章节。

系统支持的数据预处理方法包含：采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见

数据预处理（转换）方法包含：采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见数据预处理章节。

目标源中支持的关系目标源有：

目前支持Infobright、ClickHouse、Vertica、Oracle、MySQL、DB2、MSSQL、PostgreSQL、GuassDB

目标源（输出）支持的数据库有：MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环（用户名密码方式）、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)

、、SelectDB、TIDB、MogDB

、SelectDB、TIDB、MogDB等。关于目标源的更多信息请参见目标源章节。

2. 功能入口

ETL工作流定制界面的操作入口：ETL工作流开发界面的操作入口：

系统导航栏中选择 数据准备，在左侧资源树自助ETL的更多中选择“自助ETL”，在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项，进入“新建自助ETL”界面：

Image Modified

3. 界面介绍

ETL工作流定制界面

ETL流程定制界面用于设计定制ETL工作流。如下图所示：

Image Removed

该界面主要分为如下几个区：

3.1 ETL工作流界面

ETL流程界面，用于开发工作流。如下图所示：

Image Added

界面主要分为如下几个区域：

1、工具栏：用于对当前流程进行的操作，详情请参见工具栏。
2、节点资源区：显示当前流程可拖拽使用的资源，最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考2、节点面板：显示当前流程可拖拽使用的节点，顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍。
3、画布区：用于定制ETL工作流。
4、节点配置区：用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
5、数据预览面板：用于查看选择的节点输出的数据。3、画布区：用于开发ETL工作流。
4、节点配置区：用于对画布中所选节点的参数和属性进行配置。
5、数据面板：用于查看选择的节点执行后的输出数据。

4. 工作流操作

锚
_工具栏_1
_工具栏_1
4.1 工具栏

工具栏中有如下工具按钮支持工作流的相关操作。工具栏中有如下按钮，用于支持工作流的相关操作：

Image RemovedImage Added
这些工具按钮从左至右的说明如下：这些按钮从左至右说明如下：

按钮	说明

导入/导出流程定义、禁用自动连线用于导入/导出流程定义，禁用自动连线查看历史用于查看定制的ETL工作流执行历史的相关信息。


添加节点	点击后弹出”添加节点“面板，选择要添加到画布中的节点。
撤销	撤销最近一步操作。
重做	恢复最近一步操作。
保存

用于保存当前ETL流程。

保存：用于保存当前ETL流程。

另存

另存为：用于将当前ETL流程另存一份到其它路径下。

用于将当前ETL流程保存到其它路径下。

运行

执行策略：使用系统缓存设置。

不使用缓存：不使用缓存运行ETL；
使用系统缓存设置：根据配置的缓存策略判断是否使用缓存运行ETL。

定时任务用于修改当前ETL流程的调度设置。ETL调度详情请参见抽取监控章节相关内容。参数设置用于配置当前ETL高级查询的参数，可通过参数筛选用户需要的数据，实现增量抽取等场景

运行

缓存锚缓存缓存

缓存策略：

每个节点执行后，结果都会缓存起来，下游节点执行的时候，直接从缓存中获取上游节点执行结果
只有启用了缓存，节点的右键菜单中执行该节点，从该节点开始执行才是可用状态

缓存作用：

启用缓存，系统会更加稳定可靠。因为启用缓存，每个节点执行只需要从缓存中获取上游节点执行结果，不需要重新计算上游节点逻辑。不启用缓存，每个节点执行需要把上游节点逻辑重算一次，越到后面的节点，累积的计算逻辑越多，执行的时间越长，越容易出现卡死现象。

清除缓存：点击按钮清除缓存的节点数据。

运行：从头开始运行所有节点。
运行(跳过成功节点)：从头开始运行所有节点，但是跳过上次运行成功的节点。
运行当前节点：只运行画布中当前选中的节点。
从当前节点运行：从画布中当前选中的节点开始运行，直到流程结束。
运行到当前节点：从流程开始节点运行，直接画布中当前选中的节点。
运行到当前节点(跳过成功节点)：从流程开始节点运行，直接画布中当前选中的节点，但是跳过上次运行成功的节点。

定时运行

用于修改当前ETL流程的调度设置。ETL调度详情请参见抽取监控章节相关内容。

全量/小批量

全量（默认）：运行数据源节点包含的全部数据；
小批量：运行节点前1000条数据，当数据量较大时选择小批量运行，可减少用户等待时间。

注意
小批量功能目前只支持关系数据源与数据查询节点；需要配置缓存才能使用小批量功能，请参考缓存；设置为小批量试运行不影响计划任务，计划任务还是按全量执行。

...

参数管理：用于配置当前ETL的参数，可通过参数筛选用户需要的数据，实现增量抽取等场景，详情请参考数据挖掘-参数设置。

日志用于记录自助ETL运行状态信息。小批量/全量运行

执行策略：用于运行当前ETL流程。

小批量运行：运行节点前1000条数据，当数据量较大时选择小批量运行，可减少用户等待时间。
全量（默认）：运行数据源节点包含的全部数据；

注意
小批量功能目前只支持关系数据源与数据查询节点；需要配置缓存才能使用小批量功能，请参考缓存；设置为小批量试运行不影响计划任务，计划任务还是按全量执行。

右键菜单

各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下：

清除缓存：点击后清除缓存的节点数据。
查看运行历史：用于查看定制的ETL工作流执行历史的相关信息。
查看日志：用于记录自助ETL运行状态信息。
导出流程定义：用于导出流程定义。
导入流程定义：用于导入流程定义。

4.2 设置面板

在“设置”面板上，当画布中无节点选中时显示的是流程本身的属性。

Image Added

设置项

说明

缓存策略

锚

	缓存
	缓存

缓存策略：

每个节点执行后，结果都会缓存起来，下游节点执行的时候，直接从缓存中获取上游节点执行结果；
只有启用了缓存，节点的右键菜单中执行该节点，从该节点开始执行才是可用状态。

缓存作用：

缓存：系统会更加稳定可靠。因为启用缓存，每个节点执行只需要从缓存中获取上游节点执行结果，不需要重新计算上游节点逻辑。
不缓存：每个节点执行需要把上游节点逻辑重算一次，越到后面的节点，累积的计算逻辑越多，执行的时间越长，越容易出现卡死现象。

节点自动连线

启用：把一个节点拖到另外一个节点旁边时自动连线。
禁用：只能手动拖拽建立两个节点间的连线。

属性

别名：当前节点的别名。
描述：对当前节点的详细描述。

4.3 右键菜单

各节点的右键菜单支持相关操作。节点资源的右键菜单如下：

该右键菜单各项的说明如下：

右键菜单	说明
执行到此处	表示运行工作流到当前节点资源结束。
执行该节点	表示运行工作流时到当前节点资源结束。
从当前节点开始执行	表示运行工作流时从当前节点资源开始执行。
查看日志	用于查看当前节点资源的运行日志。
复制	用于复制选择的节点，与节点右键菜单的“粘粘”结合使用。
删除	表示删除当前节点资源。
添加备注	对实验或节点添加备注信息进行记录，详情请参考文本组件。对实验或节点添加备注信息进行记录。
查看输出	用于查看当前节点资源的输出列表。
粘粘	在空白的画布区任意位置上粘贴复制的节点。
清空备注	清空当前实验上的所有备注

4.4 画布工具

画布内含缩放工具，用于对工作进行放大、缩小操作：对画布进行操作，从左到右依次是：缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。

Image Removed
该工具箱中从上到下依次是：放大、缩小、原始大小、定位到节点、撤销、还原。

数据预览面板

用于查看选择的节点输出的数据。

打开数据预览面板，点击节点可查看节点输出后的数据。

Image Removed

各项说明如下：

Image Added

4.5 数据面板

用于查看选择的节点运行后的输出数据。打开数据面板，点击节点可查看节点的输出数据。

Image Added

各项说明如下：

Image Added

设置项	说明
节点状态	节点执行成功，则数据预览面板显示对应节点的数据预览；节点执行成功，则数据面板显示对应节点的数据预览。节点未执行或执行报错，则数据预览面板提示“暂无数据”。节点未执行或执行报错，则数据面板提示“暂无数据”。
筛选器选择显示列	筛选符合条件和数据行。 Image Removed 另外，支持在分布图上直接右键设置保留或移除条件。 Image Removed
计算字段	生成新的列。 Image Removed
列筛选	选择一个或多个列的方式来查看数据。
删除/保留列	支持删除或保留列。 Image Removed 支持多选操作，具体操作方式：按住CTRL+点击字段分布图，选择保留或移除即可。 Image Removed
表头真名/表头别名	选择显示表头真名或别名。
下载	下载预览的数据到本地。此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全，默认不会下载全量数据，数据量为100条。如果需要下载更多数据，可以到系统运维——数据挖掘配置——执行引擎——节点数据存储行数中配置，然后重新执行该节点即可。
修改真名/别名/元数据类型	预处理下面的节点支持元数据编辑。显示数据网格时，当右侧选项按钮切换成真名时，可以直接点击表格修改真名；若为别名，则可以直接修改别名。同时，点击数据类型图标按钮时，可以更改数据类型。另外，也可以通过底部面板的元数据编辑按钮去设置各列的元数据信息。 Image Removed 显示配置窗格时，当右侧选项按钮切换成真名时，可以直接点击表格修改真名；若为别名，则可以直接修改别名。同时，点击数据类型图标按钮时，可以更改数据类型。 Image Removed 点击元数据编辑按钮，可以统一编辑各列的真名、别名和数据类型，并支持调整各列顺序。注意：每次打开不会自动更新配置，如果需要刷新元数据信息，需要点击对话框左下角的刷新元数据按钮。 Image Removed临时选择要显示的数据列，这里选择的结果只是为了方便查询和操作，不会永久保存。
真名/别名	选择显示表头真名或别名。
下载数据	下载预览的数据到本地。此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全，只能下载100条数据，不支持下载全量数据
显示	显示当前节点运行结果的统计信息，有多少列、多少行数据。

页面树结构

版本比较

旧版本 10

新版本当前版本

标识

锚
_数据处理流程
_数据处理流程
1.

ETL工作流

2. 功能入口