ETL工作流必须以数据源(输入)为起点,以目标源(输出)为终点:从数据源中抽取数据,然后利用内置数据预处理(转换)节点进行数据加工处理,再将处理后的数据输出到目标源中。
ETL工作流开发界面的操作入口:
系统导航栏中选择 数据准备,在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项,进入“新建自助ETL”界面:
ETL流程界面,用于开发工作流。如下图所示:
界面主要分为如下几个区域:
工具栏中有如下按钮,用于支持工作流的相关操作:
这些按钮从左至右说明如下:
按钮 | 说明 | |
---|---|---|
添加节点 | 点击后弹出”添加节点“面板,选择要添加到画布中的节点。 | |
撤销 | 撤销最近一步操作。 | |
重做 | 恢复最近一步操作。 | |
保存 |
| |
运行 |
| |
定时运行 | 用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。 | |
全量/小批量 |
| |
... |
|
在“设置”面板上,当画布中无节点选中时显示的是流程本身的属性。
设置项 | 说明 |
---|---|
缓存策略 | 缓存策略:
缓存作用:
|
节点自动连线 |
|
属性 |
|
各节点的右键菜单支持相关操作。节点资源的右键菜单如下:
该右键菜单各项的说明如下:
右键菜单 | 说明 |
---|---|
执行到此处 | 表示运行工作流到当前节点资源结束。 |
执行该节点 | 表示运行工作流时到当前节点资源结束。 |
从当前节点开始执行 | 表示运行工作流时从当前节点资源开始执行。 |
查看日志 | 用于查看当前节点资源的运行日志。 |
复制 | 用于复制选择的节点,与节点右键菜单的“粘粘”结合使用。 |
删除 | 表示删除当前节点资源。 |
添加备注 | 对实验或节点添加备注信息进行记录。 |
查看输出 | 用于查看当前节点资源的输出列表。 |
粘粘 | 在空白的画布区任意位置上粘贴复制的节点。 |
清空备注 | 清空当前实验上的所有备注 |
对画布进行操作,从左到右依次是:缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。
4.5 数据面板
用于查看选择的节点运行后的输出数据。打开数据面板,点击节点可查看节点的输出数据。
各项说明如下:
设置项 | 说明 |
---|---|
节点状态 |
|
选择显示列 | 临时选择要显示的数据列,这里选择的结果只是为了方便查询和操作,不会永久保存。 |
真名/别名 | 选择显示表头真名或别名。 |
下载数据 | 下载预览的数据到本地。 此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,只能下载100条数据,不支持下载全量数据 |
显示 | 显示当前节点运行结果的统计信息,有多少列、多少行数据。 |