自助ETL-界面介绍

ETL工作流必须以数据源为起点，以目标源为终点：从数据源中抽取需要进行处理的数据，通过拖拽内置的预处理方法，之后将处理过的数据存储到目标源中。

数据源中支持的关系数据源有：

Mysql,，Oracle，Clickhouse，DB2，SQL Server，Vertica，Inforbright，Presto，Hive，星环-inceptor，Postgresql，GreenPlum，Gauss100，Gauss200，Gbase 8A，Gbase 8S，Gbase 8T，达梦6，达梦7，Sybase，Hana，Aliyun AnalyticDB，Aliyun MaxCompute

MariaDB，华为Fusioninsight，Teradata、Teradata_V12、神通（单节点/集群）、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin（麒麟）、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase、OceanBase_Oracle、SelectDB、

SparkSQL、Other、TIDB、MogDB 数据库。关于数据源的更多信息请参见数据源章节。

系统支持的数据预处理方法包含：采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见数据预处理章节。

目标源中支持的关系目标源有：

目前支持Infobright、ClickHouse、Vertica、Oracle、MySQL、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环（用户名密码方式）、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)、、SelectDB、TIDB、MogDB。关于目标源的更多信息请参见目标源章节。

功能入口

ETL工作流定制界面的操作入口：

系统导航栏中选择 数据准备，在左侧资源树自助ETL的更多中选择“自助ETL”，进入“新建自助ETL”界面：

界面介绍

ETL工作流定制界面

ETL流程定制界面用于设计定制ETL工作流。如下图所示：

该界面主要分为如下几个区：

1、工具栏：用于对当前流程进行的操作，详情请参见工具栏。
2、节点资源区：显示当前流程可拖拽使用的资源，最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考自助ETL-节点资源区介绍。
3、画布区：用于定制ETL工作流。
4、节点配置区：用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
5、数据预览面板：用于查看选择的节点输出的数据。

工作流操作

工具栏

工具栏中有如下工具按钮支持工作流的相关操作。

这些工具按钮从左至右的说明如下：

按钮	说明
导入/导出流程定义、禁用自动连线	用于导入/导出流程定义，禁用自动连线
查看历史	用于查看定制的ETL工作流执行历史的相关信息。
保存	用于保存当前ETL流程。
另存	用于将当前ETL流程保存到其它路径下。
缓存	缓存策略：第一次执行，每个节点执行后，结果都会缓存起来，下游节点执行的时候，直接从缓存中获取上游节点执行结果第二次在界面上手工点执行，上次执行成功的节点，不会再重新执行，只会执行未执行或执行失败的节点。如果想执行成功的节点也能重新执行，比如关系数据源节点想重新执行获取最新数据，那就先点击清除缓存，然后再执行通过计划任务调起etl或者作业流调起etl，每个节点都会重新执行（为了保证能获取最新数据）缓存作用：在界面上手工点执行，上次执行成功的节点，不会再重新执行，减少用户等待时间启用缓存，系统会更加稳定可靠。因为启用缓存，每个节点执行只需要从缓存中获取上游节点执行结果，不需要重新计算上游节点逻辑。不启用缓存，每个节点执行需要把上游节点逻辑重算一次，越到后面的节点，累积的计算逻辑越多，执行的时间越长，越容易出现卡死现象。清除缓存：点击按钮清除缓存的节点数据。
运行	执行策略：使用系统缓存设置。不使用缓存：不使用缓存运行ETL；使用系统缓存设置：根据配置的缓存策略判断是否使用缓存运行ETL。
定时任务	用于修改当前ETL流程的调度设置。ETL调度详情请参见抽取监控章节相关内容。
参数设置	用于配置当前ETL高级查询的参数，可通过参数筛选用户需要的数据，实现增量抽取等场景，详情请参考数据挖掘-参数设置。
日志	用于记录自助ETL运行状态信息。
小批量/全量运行	执行策略：用于运行当前ETL流程。小批量运行：运行节点前1000条数据，当数据量较大时选择小批量运行，可减少用户等待时间。全量（默认）：运行数据源节点包含的全部数据；小批量功能目前只支持关系数据源与数据查询节点；需要配置缓存才能使用小批量功能，请参考缓存；设置为小批量试运行不影响计划任务，计划任务还是按全量执行。

右键菜单

各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下：

该右键菜单各项的说明如下：

右键菜单	说明
执行到此处	表示运行工作流到当前节点资源结束。
执行该节点	表示运行工作流时到当前节点资源结束。
从当前节点开始执行	表示运行工作流时从当前节点资源开始执行。
查看日志	用于查看当前节点资源的运行日志。
复制	用于复制选择的节点，与节点右键菜单的“粘粘”结合使用。
删除	表示删除当前节点资源。
添加备注	对实验或节点添加备注信息进行记录，详情请参考文本组件。
查看输出	用于查看当前节点资源的输出列表。
粘粘	在空白的画布区任意位置上粘贴复制的节点。
清空备注	清空当前实验上的所有备注

画布工具

画布内含缩放工具，用于对工作进行放大、缩小操作：

该工具箱中从上到下依次是：放大、缩小、原始大小、定位到节点、撤销、还原。

数据预览面板

用于查看选择的节点输出的数据。

打开数据预览面板，点击节点可查看节点输出后的数据。

各项说明如下：

设置项	说明
节点状态	节点执行成功，则数据预览面板显示对应节点的数据预览；节点未执行或执行报错，则数据预览面板提示“暂无数据”。
筛选器	筛选符合条件和数据行。另外，支持在分布图上直接右键设置保留或移除条件。
计算字段	生成新的列。
列筛选	选择一个或多个列的方式来查看数据。
删除/保留列	支持删除或保留列。支持多选操作，具体操作方式：按住CTRL+点击字段分布图，选择保留或移除即可。
表头真名/表头别名	选择显示表头真名或别名。
下载	下载预览的数据到本地。此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全，默认不会下载全量数据，数据量为100条。如果需要下载更多数据，可以到系统运维——数据挖掘配置——执行引擎——节点数据存储行数中配置，然后重新执行该节点即可。
修改真名/别名/元数据类型	预处理下面的节点支持元数据编辑。显示数据网格时，当右侧选项按钮切换成真名时，可以直接点击表格修改真名；若为别名，则可以直接修改别名。同时，点击数据类型图标按钮时，可以更改数据类型。另外，也可以通过底部面板的元数据编辑按钮去设置各列的元数据信息。显示配置窗格时，当右侧选项按钮切换成真名时，可以直接点击表格修改真名；若为别名，则可以直接修改别名。同时，点击数据类型图标按钮时，可以更改数据类型。点击元数据编辑按钮，可以统一编辑各列的真名、别名和数据类型，并支持调整各列顺序。注意：每次打开不会自动更新配置，如果需要刷新元数据信息，需要点击对话框左下角的刷新元数据按钮。

页面树结构

ETL工作流示例