页面树结构
转至元数据结尾
转至元数据起始

1. ETL工作流

ETL工作流必须以数据源(输入)为起点,以目标源(输出)为终点:从数据源中抽取数据,然后利用内置数据预处理(转换)节点进行数据加工处理,再将处理后的数据输出到目标源中。

  • 数据源(输入)支持的数据库有:MySQL,Oracle,Clickhouse,DB2,SQL Server,Vertica,Inforbright,Presto,Hive,星环-Inceptor,Postgresql,GreenPlum,Gauss100,Gauss200,Gbase 8A,Gbase 8S,Gbase 8T,达梦6,达梦7,Sybase,Hana,Aliyun AnalyticDB,Aliyun MaxCompute,MariaDB,华为Fusioninsight,Teradata、Teradata_V12、神通(单节点/集群)、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin(麒麟)、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)、OceanBase、OceanBase_Oracle、SelectDB、SparkSQL、Other、TIDB、MogDB 等数据库。关于数据源的更多信息请参见 数据源 章节。
  • 数据预处理(转换)方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。
  • 目标源(输出)支持的数据库有:MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环(用户名密码方式 )、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)、SelectDB、TIDB、MogDB等 关于目标源的更多信息请参见 目标源 章节。


2. 功能入口

ETL工作流开发界面的操作入口:

系统导航栏中选择 数据准备,在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项,进入“新建自助ETL”界面:


3. 界面介绍

3.1 ETL工作流界面

ETL流程界面,用于开发工作流。如下图所示:

界面主要分为如下几个区域:

  • 1、工具栏:用于对当前流程进行的操作,详情请参见 工具栏
  • 2、节点面板:显示当前流程可拖拽使用的节点,顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍
  • 3、画布区:用于开发ETL工作流。
  • 4、节点配置区:用于对画布中所选节点的参数和属性进行配置。
  • 5、数据面板:用于查看选择的节点执行后的输出数据。

4. 工作流操作

4.1 工具栏

工具栏中有如下按钮,用于支持工作流的相关操作:


这些按钮从左至右说明如下:

按钮

说明

添加节点

点击后弹出”添加节点“面板,选择要添加到画布中的节点。

撤销撤销最近一步操作。
重做恢复最近一步操作。

保存

  • 保存:用于保存当前ETL流程。
  • 另存为:用于将当前ETL流程另存一份到其它路径下。

运行

  • 运行:从头开始运行所有节点。
  • 运行(跳过成功节点):从头开始运行所有节点,但是跳过上次运行成功的节点。
  • 运行当前节点:只运行画布中当前选中的节点。
  • 从当前节点运行:从画布中当前选中的节点开始运行,直到流程结束。
  • 运行到当前节点:从流程开始节点运行,直接画布中当前选中的节点。
  • 运行到当前节点(跳过成功节点):从流程开始节点运行,直接画布中当前选中的节点,但是跳过上次运行成功的节点。
定时运行

用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。

全量/小批量
  • 全量(默认):运行数据源节点包含的全部数据;
  • 小批量:运行节点前1000条数据,当数据量较大时选择小批量运行,可减少用户等待时间。
  1. 小批量功能目前只支持关系数据源与数据查询节点;
  2. 需要配置缓存才能使用小批量功能,请参考 缓存
  3. 设置为小批量试运行不影响计划任务,计划任务还是按全量执行。
...
  • 参数管理:用于配置当前ETL的参数,可通过参数筛选用户需要的数据,实现增量抽取等场景详情请参考 数据挖掘-参数设置 。
  • 清除缓存:点击后清除缓存的节点数据。
  • 查看运行历史:用于查看定制的ETL工作流执行历史的相关信息。
  • 查看日志:用于记录自助ETL运行状态信息。
  • 导出流程定义:用于导出流程定义。
  • 导入流程定义:用于导入流程定义。

4.2 设置面板

在“设置”面板上,当画布中无节点选中时显示的是流程本身的属性。

设置项

说明

缓存策略

缓存策略:

  1. 每个节点执行后,结果都会缓存起来,下游节点执行的时候,直接从缓存中获取上游节点执行结果;
  2. 只有启用了缓存,节点的右键菜单中执行该节点,从该节点开始执行才是可用状态。

缓存作用:

  1. 缓存:系统会更加稳定可靠。因为启用缓存,每个节点执行只需要从缓存中获取上游节点执行结果,不需要重新计算上游节点逻辑。
  2. 不缓存:每个节点执行需要把上游节点逻辑重算一次,越到后面的节点,累积的计算逻辑越多,执行的时间越长,越容易出现卡死现象。

节点自动连线

  • 启用:把一个节点拖到另外一个节点旁边时自动连线。
  • 禁用:只能手动拖拽建立两个节点间的连线。
属性
  • 别名:当前节点的别名。
  • 描述:对当前节点的详细描述。

4.3 右键菜单

各节点的右键菜单支持相关操作。节点资源的右键菜单如下:


该右键菜单各项的说明如下:

右键菜单

说明

执行到此处

表示运行工作流到当前节点资源结束。

执行该节点表示运行工作流时到当前节点资源结束。
从当前节点开始执行表示运行工作流时从当前节点资源开始执行。

查看日志

用于查看当前节点资源的运行日志。

复制用于复制选择的节点,与节点右键菜单的“粘粘”结合使用。

删除

表示删除当前节点资源。

添加备注对实验或节点添加备注信息进行记录。

查看输出

用于查看当前节点资源的输出列表。

粘粘在空白的画布区任意位置上粘贴复制的节点。
清空备注清空当前实验上的所有备注

4.4 画布工具

对画布进行操作,从左到右依次是:缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。 


4.5 数据面板

用于查看选择的节点运行后的输出数据。打开数据面板,点击节点可查看节点的输出数据。

各项说明如下:

设置项

说明

节点状态
  • 节点执行成功,则数据面板显示对应节点的数据预览。
  • 节点未执行或执行报错,则数据面板提示“暂无数据”。
选择显示列临时选择要显示的数据列,这里选择的结果只是为了方便查询和操作,不会永久保存。
真名/别名选择显示表头真名或别名。
下载数据

下载预览的数据到本地。

此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,默认不会下载全量数据,数据量为100条。如果需要下载更多数据,可以到 系统运维——数据挖掘配置——执行引擎——节点数据存储行数 中配置,然后重新执行该节点即可。

显示

显示当前节点运行结果的统计信息,有多少列、多少行数据。

  • 无标签