ETL工作流必须以数据源为起点,以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽内置的预处理方法,之后将处理过的数据存储到目标源中。ETL工作流必须以数据源(输入)为起点,以目标源(输出)为终点:从数据源中抽取数据,然后利用内置数据预处理(转换)节点进行数据加工处理,再将处理后的数据输出到目标源中。
数据源中支持的关系数据源有:
Mysql,,Oracle,Clickhouse,DB2,SQL- 数据源(输入)支持的数据库有:MySQL,Oracle,Clickhouse,DB2,SQL Server,Vertica,Inforbright,Presto,Hive,星环-
- Inceptor,Postgresql,GreenPlum,Gauss100,Gauss200,Gbase 8A,Gbase 8S,Gbase 8T,达梦6,达梦7,Sybase,Hana,Aliyun AnalyticDB,Aliyun
- MaxCompute,MariaDB,
- 华为Fusioninsight,Teradata、Teradata_V12、神通(单节点/
- 集群)(信创版支持)、Kingbase、Kingbase_V8、Kingbase AnalyticsDB、Informix、Obase、Kylin(麒麟)、Impala、MonetDB、starRocks(社区版2.2.2)、Rapids(博睿)
- 、OceanBase (信创版支持)、OceanBase_Oracle、SelectDB(信创版支持)、SparkSQL、Other、TIDB、MogDB(信创版支持) 等数据库。关于数据源的更多信息请参见 数据源 章节。
- 数据预处理(转换)方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。
目标源中支持的关系目标源有:
目前支持Infobright、ClickHouse、Vertica、Oracle、MySQL、DB2、MSSQL、PostgreSQL、GuassDB- 目标源(输出)支持的数据库有:MySQL、Infobright、ClickHouse、Vertica、Oracle、DB2、MSSQL、PostgreSQL、GuassDB 100、GuassDB 200、Greenplum、星环(用户名密码方式 )、达梦、GBase、Sybase、MariaDB、MonetDB、starRocks(社区版2.2.2)
- 、SelectDB、TIDB、MogDB等。 关于目标源的更多信息请参见 目标源 章节。
2. 功能入口
ETL工作流定制界面的操作入口:ETL工作流开发界面的操作入口:
系统导航栏中选择 数据准备,在左侧资源树自助ETL的更多中选择“自助ETL”,在左侧资源树上点击“自助ETL → 新建 → 自助ETL”菜单项,进入“新建自助ETL”界面:
3. 界面介绍
ETL工作流定制界面
ETL流程定制界面用于设计定制ETL工作流。如下图所示:
该界面主要分为如下几个区:
3.1 ETL工作流界面
ETL流程界面,用于开发工作流。如下图所示:
界面主要分为如下几个区域:
- 1、工具栏:用于对当前流程进行的操作,详情请参见 工具栏。
- 2、节点资源区:显示当前流程可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考2、节点面板:显示当前流程可拖拽使用的节点,顶端搜索框支持输入节点名称模糊搜索。详细介绍请参考自助ETL-节点资源区介绍。
- 3、画布区:用于定制ETL工作流。
- 4、节点配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
- 5、数据预览面板:用于查看选择的节点输出的数据。3、画布区:用于开发ETL工作流。
- 4、节点配置区:用于对画布中所选节点的参数和属性进行配置。
- 5、数据面板:用于查看选择的节点执行后的输出数据。
4. 工作流操作
锚 | ||||
---|---|---|---|---|
|
工具栏中有如下工具按钮支持工作流的相关操作。工具栏中有如下按钮,用于支持工作流的相关操作:
这些工具按钮从左至右的说明如下:这些按钮从左至右说明如下:
按钮 | 说明 |
---|
添加节点 | 点击后弹出”添加节点“面板,选择要添加到画布中的节点。 |
撤销 | 撤销最近一步操作。 |
重做 | 恢复最近一步操作。 |
保存 |
|
|
运行
执行策略:使用系统缓存设置。
- 不使用缓存:不使用缓存运行ETL;
- 使用系统缓存设置:根据配置的缓存策略判断是否使用缓存运行ETL。
运行 |
缓存策略:
- 每个节点执行后,结果都会缓存起来,下游节点执行的时候,直接从缓存中获取上游节点执行结果
- 只有启用了缓存,节点的右键菜单中执行该节点,从该节点开始执行才是可用状态
缓存作用:
- 启用缓存,系统会更加稳定可靠。因为启用缓存,每个节点执行只需要从缓存中获取上游节点执行结果,不需要重新计算上游节点逻辑。不启用缓存,每个节点执行需要把上游节点逻辑重算一次,越到后面的节点,累积的计算逻辑越多,执行的时间越长,越容易出现卡死现象。
清除缓存:点击按钮清除缓存的节点数据。
| |||
定时运行 | 用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。 | ||
全量/小批量 |
| ||
... |
|
执行策略:用于运行当前ETL流程。
- 小批量运行:运行节点前1000条数据,当数据量较大时选择小批量运行,可减少用户等待时间。
- 全量(默认):运行数据源节点包含的全部数据;
注意 |
---|
|
右键菜单
各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:
|
4.2 设置面板
在“设置”面板上,当画布中无节点选中时显示的是流程本身的属性。
设置项 | 说明 | ||||||
---|---|---|---|---|---|---|---|
缓存策略
| 缓存策略:
缓存作用:
| ||||||
节点自动连线 |
| ||||||
属性 |
|
4.3 右键菜单
各节点的右键菜单支持相关操作。节点资源的右键菜单如下:
该右键菜单各项的说明如下:
右键菜单 | 说明 |
---|---|
执行到此处 | 表示运行工作流到当前节点资源结束。 |
执行该节点 | 表示运行工作流时到当前节点资源结束。 |
从当前节点开始执行 | 表示运行工作流时从当前节点资源开始执行。 |
查看日志 | 用于查看当前节点资源的运行日志。 |
复制 | 用于复制选择的节点,与节点右键菜单的“粘粘”结合使用。 |
删除 | 表示删除当前节点资源。 |
添加备注 | 对实验或节点添加备注信息进行记录,详情请参考 文本组件 。对实验或节点添加备注信息进行记录。 |
查看输出 | 用于查看当前节点资源的输出列表。 |
粘粘 | 在空白的画布区任意位置上粘贴复制的节点。 |
清空备注 | 清空当前实验上的所有备注 |
4.4 画布工具
画布内含缩放工具,用于对工作进行放大、缩小操作:对画布进行操作,从左到右依次是:缩放百分比、画布还原至100%、画布缩放到最佳比例、定位到中心点、自动布局、移动画布。
该工具箱中从上到下依次是:放大、缩小、原始大小、定位到节点、撤销、还原。
数据预览面板
用于查看选择的节点输出的数据。
打开数据预览面板,点击节点可查看节点输出后的数据。
各项说明如下:
4.5 数据面板
用于查看选择的节点运行后的输出数据。打开数据面板,点击节点可查看节点的输出数据。
各项说明如下:
设置项 | 说明 |
---|---|
节点状态 |
|
筛选器选择显示列 | 筛选符合条件和数据行。 另外,支持在分布图上直接右键设置保留或移除条件。 |
计算字段 | 生成新的列。 |
列筛选 | 选择一个或多个列的方式来查看数据。 |
删除/保留列 | 支持删除或保留列。 支持多选操作,具体操作方式:按住CTRL+点击字段分布图,选择保留或移除即可。 |
表头真名/表头别名 | 选择显示表头真名或别名。 |
下载 | 下载预览的数据到本地。 此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,默认不会下载全量数据,数据量为100条。如果需要下载更多数据,可以到 系统运维——数据挖掘配置——执行引擎——节点数据存储行数 中配置,然后重新执行该节点即可。 |
修改真名/别名/元数据类型 | 预处理下面的节点支持元数据编辑。 显示数据网格时,当右侧选项按钮切换成真名时,可以直接点击表格修改真名;若为别名,则可以直接修改别名。同时,点击数据类型图标按钮时,可以更改数据类型。另外,也可以通过底部面板的元数据编辑按钮去设置各列的元数据信息。 显示配置窗格时,当右侧选项按钮切换成真名时,可以直接点击表格修改真名;若为别名,则可以直接修改别名。同时,点击数据类型图标按钮时,可以更改数据类型。 点击元数据编辑按钮,可以统一编辑各列的真名、别名和数据类型,并支持调整各列顺序。注意:每次打开不会自动更新配置,如果需要刷新元数据信息,需要点击对话框左下角的刷新元数据按钮。 临时选择要显示的数据列,这里选择的结果只是为了方便查询和操作,不会永久保存。 |
真名/别名 | 选择显示表头真名或别名。 |
下载数据 | 下载预览的数据到本地。 此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,只能下载100条数据,不支持下载全量数据 |
显示 | 显示当前节点运行结果的统计信息,有多少列、多少行数据。 |