页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

_

...

数据处理流程
_

...

数据处理流程

...

ETL工作流示例

...

目录

...

ETL工作流必须以数据源为起点,以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽内置的预处理方法,之后将处理过的数据存储到目标源中。

...

Image Added

ETL通常是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型。在Smartbi中,ETL模块做为轻量级的应用,可以为库表提取数据模型的语义,可以通过易于操作的可视化工具,将数据加工成具备语义一致性与完整性的数据模型;也可以增强自助数据集构建数据模型的能力。

我们通过封装ETL算法,将技术分离,可以实现业务人员进行自助ETL操作。

...

数据处理的工作流必须以数据源为起点以目标源为终点:从数据源中抽取需要进行处理的数据,通过拖拽平台内置的预处理方法,之后将处理过的数据存储到目标源中。
Image Removed
平台支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。

功能入口

在平台中一个ETL数据处理工作流是以"数据处理项目"为单位的。
进入数据处理项目流定制界面的操作入口:

  1. 在"定制管理"界面中的主界面区单击快捷菜单 数据处理。如下图所示:

Image Removed

  1. 进入"数据处理管理"界面,如下图所示:

Image Removed

  1. 单击该界面的 创建数据处理项目 按钮,弹出位置窗口,确定项目的存储路径后,单击 确定 按钮,即进入数据处理的定制界面。

界面介绍

数据处理管理界面

数据处理管理界面以列表的形式显示所有数据处理项目,支持用户对项目进行编辑和删除的操作。如下图所示:
Image Removed
该界面主要分为如下几个区:

  • 功能区:显示对数据处理项目列表的相关操作,从左至右依次是:

    功能操作

    说明

    刷新

    用于更新数据处理项目列表。

    搜索

    用于通过数据处理项目名称关键字模糊匹配,搜索出结果列表。
    注:英文需要区分大小写。

    创建数据处理项目

    用于创建新的数据处理项目。

  • 列表区:显示所有数据处理项目及项目文件夹的列表。该列表的"操作栏"支持对项目或文件夹进行编辑和修改的操作。

数据处理定制界面

数据处理定制界面用于设计定制数据处理流程。如下图所示:
Image Removed
该界面主要分为如下几个区:

  • 节点资源区:显示当前项目可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。
  • 画布区:用于定制数据处理的模型工作流。
  • 节点参数属性配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前项目的别名、描述及创建更新时间信息。如下图所示:

Image Removed

...

数据源中支持的关系数据源有:

oracle、mysql、星环、DB2、gbase 8a、gbase 8S 、PostgreSQL、SQL Server 、SelectDB、vertica、greenplum、gauss100、gauss200、hive、达梦6、达梦7、sybase、aliyun MaxCompute、aliyun AnalyticDB、clickhouse、infobright、huawei FusionInsight HD、presto、MariaDB、KingBase、KingBase_V8、KingBaseANALYTICS、TERADATA、SHENTONG、OBASE、INFORMIX、IMPALA、KYLIN、SAP HANA、SelectDB 数据库。关于数据源的更多信息请参见 数据源 章节。

系统支持的数据预处理方法包含:采样、拆分、过滤与映射、列选择、空值处理、合并列、合并行、元数据编辑、JOIN、行选择、去除重复值、排序、增加序列号、聚合、分列、派生列等。这些预处理方法的使用详情请参见 数据预处理 章节。

目标源中支持的关系目标源有:

oracle、mysql、星环、DB2、gbase 8a、gbase 8S 、PostgreSQL、SQL Server 、vertica、greenplum、gauss100、gauss200、达梦6、达梦7、sybase、clickhouse、infobright、MariaDB 、SelectDB关于目标源的更多信息请参见 目标源 章节。


功能入口

ETL工作流定制界面的操作入口有如下三个:

入口1在系统主界面的快捷菜单中选择 数据准备 > 自助ETL,进入“新建自助ETL”界面:

Image Added

入口2在系统导航栏中选择 数据准备,进入“数据准备”界面并单击快捷菜单 自助ETL,进入“新建自助ETL”界面:

Image Added

入口3在系统导航栏中选择 数据准备,在左侧资源树自助ETL的更多中选择“自助ETL”,进入“新建自助ETL”界面:

Image Added

界面介绍

ETL工作流定制界面

ETL流程定制界面用于设计定制ETL工作流。如下图所示:

Image Added

该界面主要分为如下几个区:

  • 节点资源区:显示当前流程可拖拽使用的资源,最顶端的文本框支持输入资源名称关键字模糊匹配搜索结果。详细介绍请参考自助ETL-节点资源区介绍
  • 画布区:用于定制ETL工作流。
  • 节点配置区:用于对"画布区"所选资源的参数和属性进行配置。该区默认显示当前流程的别名、描述及创建更新时间信息。
  • 工具栏:用于对当前流程进行的操作,详情请参见 工具栏
  • 数据预览面板:用于查看选择的节点输出的数据。

工作流操作

_工具栏_1
_工具栏_1
工具栏

...

工具栏中有如下工具按钮支持工作流的相关操作。

...

Image Added

...

这些工具按钮从左至右的说明如下:

按钮

说明

...

返回

查看历史用于查看定制的ETL工作流执行历史的相关信息。

保存

...

用于保存当前ETL流程。

另存

...

用于将当前数据处理项目保存到其它路径下。

...

运行

...

用于运行当前数据处理项目。

 

右键菜单

各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:
Image Removed
该右键菜单各项的说明如下:

右键菜单

说明

删除

表示删除当前节点资源

执行到此处

表示运行工作流时到当前节点资源结束

查看日志

用于查看当前节点资源的运行日志

查看输出

用于查看当前节点资源的输出列表

画布工具

画布内含缩放工具,用于对工作进行放大、缩小操作:
Image Removed
该工具箱中从上到下依次是:放大、缩小、原始大小。 

...

作业是对数据处理项目结合调控机制的统称,对作业的监控包含了对数据处理项目执行情况及其调度内容的监控。
操作入口:在"定制管理"界面单击 作业监控 快捷菜单,进入"作业监控"界面,如下图所示:
Image Removed
进入"作业监控"界面,显示对ETL作业执行的监控情况,如下图所示:
Image Removed
该界面分为如下几个区:

  • 功能区:显示对ETL作业监控列表的相关操作,从左至右依次是:

    功能操作

    说明

    刷新

    用于手工更新ETL作业监控列表。

    自动刷新

    系统自动刷新ETL作业监控列表,默认勾选,且间隔10秒刷新。
    刷新的间隔时间允许修改。

    搜索

    用于通过ETL作业名称关键字模糊匹配,搜索出结果列表。
    注:英文不需要区分大小写。

  • 列表区:显示所有数据处理项目及项目文件夹的列表。该列表的"操作栏"支持对ETL作业的操作,从左至右依次是:

    功能操作

    说明

    立即执行

    用于手工执行ETL作业。

    编辑

    用于进入到"数据处理定制界面"修改当前ETL。
    详情参见 数据处理 章节相关内容。

    定时任务

    系统默认为ETL作业生成相应的调度任务,支持通过该功能操作修改相关调度设置:
    Image Removed
    该界面设置详情请参见 计划任务 章节。

    作业调用记录

    用于显示当前ETL作业的调用记录信息。
    Image Removed
    该记录中显示了当前ETL作业执行的开始和结束时间,当前状态以及日志。

...

用于将当前ETL流程保存到其它路径下。

缓存

缓存
缓存

缓存策略:

  1. 第一次执行,每个节点执行后,结果都会缓存起来,下游节点执行的时候,直接从缓存中获取上游节点执行结果
  2. 第二次在界面上手工点执行,上次执行成功的节点,不会再重新执行,只会执行未执行或执行失败的节点。
  3. 如果想执行成功的节点也能重新执行,比如关系数据源节点想重新执行获取最新数据,那就先点击清除缓存,然后再执行
  4. 通过计划任务调起etl或者作业流调起etl,每个节点都会重新执行(为了保证能获取最新数据)

缓存作用:

  1. 在界面上手工点执行,上次执行成功的节点,不会再重新执行,减少用户等待时间
  2. 启用缓存,系统会更加稳定可靠。因为启用缓存,每个节点执行只需要从缓存中获取上游节点执行结果,不需要重新计算上游节点逻辑。不启用缓存,每个节点执行需要把上游节点逻辑重算一次,越到后面的节点,累积的计算逻辑越多,执行的时间越长,越容易出现卡死现象。

清除缓存:点击按钮清除缓存的节点数据。


运行

执行策略:用于运行当前ETL流程。

  • 全量(默认):运行数据源节点包含的全部数据;
  • 小批量:运行节点前1000条数据,当数据量较大时选择小批量运行,可减少用户等待时间。
注意
  1. 小批量功能目前只支持关系数据源与数据查询节点;
  2. 需要配置缓存才能使用小批量功能,请参考 缓存
  3. 设置为小批量试运行不影响计划任务,计划任务还是按全量执行。


定时任务用于修改当前ETL流程的调度设置。ETL调度详情请参见 抽取监控 章节相关内容。
参数设置用于配置当前ETL高级查询的参数详情请参考 数据挖掘-参数设置 。
日志用于记录自助ETL运行状态信息。

右键菜单

各节点资源的右键菜单支持相关操作。
节点资源的右键菜单如下:

Image Added
该右键菜单各项的说明如下:

右键菜单

说明

执行到此处

表示运行工作流到当前节点资源结束。

执行该节点表示运行工作流时到当前节点资源结束。
从当前节点开始执行表示运行工作流时从当前节点资源开始执行。

查看日志

用于查看当前节点资源的运行日志。

复制用于复制选择的节点,与节点右键菜单的“粘粘”结合使用。

删除

表示删除当前节点资源。

添加备注对实验或节点添加备注信息进行记录,详情请参考 文本组件 。

查看输出

用于查看当前节点资源的输出列表。

粘粘在空白的画布区任意位置上粘贴复制的节点。
清空备注清空当前实验上的所有备注

画布工具

画布内含缩放工具,用于对工作进行放大、缩小操作:

Image Added
该工具箱中从上到下依次是:放大、缩小、原始大小、定位到节点、撤销、还原。 

数据预览面板

用于查看选择的节点输出的数据。

打开数据预览面板,点击节点可查看节点输出后的数据。

Image Added

各项说明如下:

设置项

说明

节点状态
  • 节点执行成功,则数据预览面板显示对应节点的数据预览;
  • 节点未执行或执行报错,则数据预览面板提示“暂无数据”。
列筛选选择一个或多个列的方式来查看数据。
表头真名/表头别名选择显示表头真名或别名。
下载

下载预览的数据到本地。

此处会把预览的数据以csv文件的方式下载到本地。为了保证数据安全,默认不会下载全量数据,数据量为100条。如果需要下载更多数据,可以到 系统运维——数据挖掘配置——执行引擎——节点数据存储行数 中配置,然后重新执行该节点即可。