...
...
...
...
...
ETL工作流必须以数据源为起点,以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽内置的预处理方法,之后将处理过的数据存储到目标源中。
...
ETL通常是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型。在Smartbi中,ETL模块做为轻量级的应用,可以为库表提取数据模型的语义,可以通过易于操作的可视化工具,将数据加工成具备语义一致性与完整性的数据模型;也可以增强自助数据集构建数据模型的能力。
我们通过封装ETL算法,将技术分离,可以实现业务人员进行自助ETL操作。
...
数据处理的工作流必须以数据源为起点以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽平台内置的预处理方法,之后将处理过的数据存储到目标源中。
平台支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。
功能入口
在平台中一个ETL数据处理工作流是以"数据处理项目"为单位的。
进入数据处理项目流定制界面的操作入口:
- 在"定制管理"界面中的主界面区单击快捷菜单 数据处理。如下图所示:
- 进入"数据处理管理"界面,如下图所示:
- 单击该界面的 创建数据处理项目 按钮,弹出位置窗口,确定项目的存储路径后,单击 确定 按钮,即进入数据处理的定制界面。
界面介绍
数据处理管理界面
数据处理管理界面以列表的形式显示所有数据处理项目,支持用户对项目进行编辑和删除的操作。如下图所示:
该界面主要分为如下几个区:
功能区:显示对数据处理项目列表的相关操作,从左至右依次是:
功能操作
说明
刷新
用于更新数据处理项目列表。
搜索
用于通过数据处理项目名称关键字模糊匹配,搜索出结果列表。
注:英文需要区分大小写。创建数据处理项目
用于创建新的数据处理项目。
- 列表区:显示所有数据处理项目及项目文件夹的列表。该列表的"操作栏"支持对项目或文件夹进行编辑和修改的操作。
数据处理定制界面
数据处理定制界面用于设计定制数据处理流程。如下图所示:
该界面主要分为如下几个区:
- 节点资源区:显示当前项目可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。
- 画布区:用于定制数据处理的模型工作流。
- 节点参数属性配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前项目的别名、描述及创建更新时间信息。如下图所示:
...
数据源中支持的关系数据源有:
oracle、mysql、星环、DB2、gbase 8a、gbase 8S 、PostgreSQL、SQL Server 、SelectDB、vertica、greenplum、gauss100、gauss200、hive、达梦6、达梦7、sybase、aliyun MaxCompute、aliyun AnalyticDB、clickhouse、infobright、huawei FusionInsight HD、presto、MariaDB、KingBase、KingBase_V8、KingBaseANALYTICS、TERADATA、SHENTONG、OBASE、INFORMIX、IMPALA、KYLIN、SAP HANA、SelectDB 数据库。关于数据源的更多信息请参见 数据源 章节。
系统支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。
目标源中支持的关系目标源有:
oracle、mysql、星环、DB2、gbase 8a、gbase 8S 、PostgreSQL、SQL Server 、vertica、greenplum、gauss100、gauss200、达梦6、达梦7、sybase、clickhouse、infobright、MariaDB 、SelectDB关于目标源的更多信息请参见 目标源 章节。
功能入口
ETL工作流定制界面的操作入口有如下三个:
入口1:在系统主界面的快捷菜单中选择 数据准备 > 自助ETL,进入“新建自助ETL”界面:
入口2:在系统导航栏中选择 数据准备,进入“数据准备”界面并单击快捷菜单 自助ETL,进入“新建自助ETL”界面:
入口3:在系统导航栏中选择 数据准备,在左侧资源树自助ETL的更多中选择“自助ETL”,进入“新建自助ETL”界面:
界面介绍
ETL工作流定制界面
ETL流程定制界面用于设计定制ETL工作流。如下图所示:
该界面主要分为如下几个区:
- 节点资源区:显示当前流程可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考自助ETL-节点资源区介绍。
- 画布区:用于定制ETL工作流。
- 节点配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
- 工具栏:用于对当前流程进行的操作,详情请参见 工具栏。
- 数据预览面板:用于查看选择的节点输出的数据。
工作流操作
锚 | ||||
---|---|---|---|---|
|
...
工具栏中有如下工具按钮支持工作流的相关操作。
...
...
这些工具按钮从左至右的说明如下:
按钮 | 说明 |
---|
...
返回
查看历史 | 用于查看定制的ETL工作流执行历史的相关信息。 |
保存 |
...
用于保存当前ETL流程。 |
另存 |
...
用于将当前数据处理项目保存到其它路径下。
...
运行
...
用于运行当前数据处理项目。
右键菜单
各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:
该右键菜单各项的说明如下:
右键菜单 | 说明 |
删除 | 表示删除当前节点资源 |
执行到此处 | 表示运行工作流时到当前节点资源结束 |
查看日志 | 用于查看当前节点资源的运行日志 |
查看输出 | 用于查看当前节点资源的输出列表 |
画布工具
画布内含缩放工具,用于对工作进行放大、缩小操作:
该工具箱中从上到下依次是:放大、缩小、原始大小。
...
作业是对数据处理项目结合调控机制的统称,对作业的监控包含了对数据处理项目执行情况及其调度内容的监控。
操作入口:在"定制管理"界面单击 作业监控 快捷菜单,进入"作业监控"界面,如下图所示:
进入"作业监控"界面,显示对ETL作业执行的监控情况,如下图所示:
该界面分为如下几个区:
功能区:显示对ETL作业监控列表的相关操作,从左至右依次是:
功能操作
说明
刷新
用于手工更新ETL作业监控列表。
自动刷新
系统自动刷新ETL作业监控列表,默认勾选,且间隔10秒刷新。
刷新的间隔时间允许修改。搜索
用于通过ETL作业名称关键字模糊匹配,搜索出结果列表。
注:英文不需要区分大小写。列表区:显示所有数据处理项目及项目文件夹的列表。该列表的"操作栏"支持对ETL作业的操作,从左至右依次是:
功能操作
说明
立即执行
用于手工执行ETL作业。
编辑
用于进入到"数据处理定制界面"修改当前ETL。
详情参见 数据处理 章节相关内容。定时任务
系统默认为ETL作业生成相应的调度任务,支持通过该功能操作修改相关调度设置:
该界面设置详情请参见 计划任务 章节。作业调用记录
用于显示当前ETL作业的调用记录信息。
该记录中显示了当前ETL作业执行的开始和结束时间,当前状态以及日志。
...
用于将当前ETL流程保存到其它路径下。 | |||||||
缓存
| 缓存策略:
缓存作用:
清除缓存:点击按钮清除缓存的节点数据。 | ||||||
运行 | 执行策略:用于运行当前ETL流程。
| ||||||
定时任务 | 用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。 | ||||||
参数设置 | 用于配置当前ETL高级查询的参数,详情请参考 数据挖掘-参数设置 。 | ||||||
日志 | 用于记录自助ETL运行状态信息。 |
右键菜单
各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:
该右键菜单各项的说明如下:
右键菜单 | 说明 |
---|---|
执行到此处 | 表示运行工作流到当前节点资源结束。 |
执行该节点 | 表示运行工作流时到当前节点资源结束。 |
从当前节点开始执行 | 表示运行工作流时从当前节点资源开始执行。 |
查看日志 | 用于查看当前节点资源的运行日志。 |
复制 | 用于复制选择的节点,与节点右键菜单的“粘粘”结合使用。 |
删除 | 表示删除当前节点资源。 |
添加备注 | 对实验或节点添加备注信息进行记录,详情请参考 文本组件 。 |
查看输出 | 用于查看当前节点资源的输出列表。 |
粘粘 | 在空白的画布区任意位置上粘贴复制的节点。 |
清空备注 | 清空当前实验上的所有备注 |
画布工具
画布内含缩放工具,用于对工作进行放大、缩小操作:
该工具箱中从上到下依次是:放大、缩小、原始大小、定位到节点、撤销、还原。
数据预览面板
用于查看选择的节点输出的数据。
打开数据预览面板,点击节点可查看节点输出后的数据。
各项说明如下:
设置项 | 说明 |
---|---|
节点状态 |
|
列筛选 | 选择一个或多个列的方式来查看数据。 |
表头真名/表头别名 | 选择显示表头真名或别名。 |
下载 | 下载预览的数据到本地。 此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,默认不会下载全量数据,数据量为100条。如果需要下载更多数据,可以到 系统运维——数据挖掘配置——执行引擎——节点数据存储行数 中配置,然后重新执行该节点即可。 |