页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。


目录

自助ETL的主要应用场景是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型。使用自助ETL可以提高数据的质量、适应不同的数据分析方法。

需求场景

需求场景1:数据预处理

在进行销售分析之前

想要对产品的销售情况进行分析,数据源中有一张产品销售表,先根据需求对数据进行处理,然后进行数据分析。

实现方案

数据基础

数据源中“产品销售表”的数据预览如下:

Image Removed

Image Added

操作步骤

1、在系统主界面的快捷菜单中选择 数据准备 > 自助ETL

,进入“自助ETL”管理界面:

,进入“新建ETL”定制界面。

Image Removed

Image Added

2、在“自助ETL”管理界面中,选择 新建自助ETL 按钮,进入“新建ETL”定制界面。

Image Removed

3、在此界面可以设计定制ETL工作流。

2、在此界面可以设计定制ETL工作流。

Image Modified

数据源

1、将关系数据源节点拖入画布区。在节点配置区设置关系数据源的参数,选择刚才导入的Excel表的关系数据源、SCHEMA、表名

Image Removed

1、将关系数据源节点拖入画布区,在节点配置区设置关系数据源的参数。

Image Added

2、在关系数据源上右键选择 执行到此处 ,运行当前节点。

Image Removed

Image Added

3、点击查看输出,可查看关系数据源节点输出的数据,如下:

Image Removed

Image Added

将表的数据导入当前工作流完成,下面对数据进行 数据预处理 

数据预处理

目标:去除销售额字段的小数位,并新建一个字段同时包含了产品大类名称和产品名称。

1、将派生列节点拖入画布区,连接两个节点。在节点配置区选择 

需要在表中添加序号,并去除采购金额字段的小数位。

1、将增加序列号节点拖入画布区,连接两个节点,设置序列列名称。

Image Added

2、将派生列节点拖入画布区,连接两个节点。在节点配置区选择 派生列配置 按钮。

Image Removed

Image Added

2、选择函数和字段分别拖入添加

3、将对应函数和字段分别拖入添加/编辑表达式区,点击 确定

按钮,添加一条派生列,销售额的设置完成。

按钮,添加一条“采购金额取整”的派生列。

Image Removed

3、再添加一条派生列“产品”,点击 确定 按钮。

Image Removed

4、在空值处理节点上右键,选择

Image Added

4、在派生列节点上右键,选择 执行到此处  ,运行当前节点

派生列节点输出的数据如下:

查看派生列节点的输出数据如下:

Image Removed

Image Added

数据预处理完成,下面将处理好的数据输出。

目标源

将处理好的数据输出成一张新的表。

1、将关系目标源家待拖入画布区,选择输出表的数据源、

1、将关系目标源节点拖入画布区,选择输出表的数据源、SCHEMA,并选择 新建表 按钮。

Image Removed

Image Added

2、新的表命名为“产品销售数据表”,点击 创建表 按钮。

Image Removed

Image Added

3、点击 运行 按钮,创建一张新的表。

Image Removed

Image Added

流程运行完成后,在关系目标源上右键,选择 执行到此处 ,关系目标源节点输出的数据如下:

流程运行完成后,关系目标源节点输出的数据如下:

Image Removed

Image Added

打开数据源的位置,预览“产品销售数据表”表中的数据如图:

在数据源中查看刚才创建的“产品销售数据表”表,预览表中的数据如图:

Image Removed

Image Added

paneltoc

使用自助ETL处理数据完成,下面可对产品销售情况进行数据分析,详情请参考 可视化与分析数据 。

borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid


需求场景二:增量抽取

详情请参考:数据挖掘-参数设置