页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。


ETL的主要应用场景是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型,在这个过程中,最重要是数据模型的设计以及工程实施的方法论,ETL工具起辅助作用,用以提高实施效率、保障工程实施的规范化、辅助运维管理。

目录

需求场景

自助ETL的主要应用场景是将多来源的异构数据,进行处理后得到具备完整性、一致性的数据模型。使用自助ETL可以提高数据的质量、适应不同的数据分析方法。

数据来源有三个,需求进行数据处理后输出一张落地表

需求场景1:数据预处理

1、本地Excel上传,需要进行数值处理

想要对产品的销售情况进行分析,数据源中有一张产品销售表,先根据需求对数据进行处理,然后进行数据分析。

2、虚拟表,不需要落地,用于中间表

3、数据库表

实现方案

操作流程

 

数据基础

在本地数据源中,将Excel文件中的数据导入到数据库中,数据预览如下:

数据源中“产品销售表”的数据预览如下:

Image Removed

Image Added

操作步骤

1、在系统主界面的快捷菜单中选择 数据准备 > 自助ETL

,进入“自助ETL”管理界面:

,进入“新建ETL”定制界面。

Image Removed

2、在“自助ETL”管理界面中,选择 新建自助ETL 按钮。

Image Removed

3、进入ETL工作流定制界面,可设计定制ETL工作流。

Image Added

2、在此界面可以设计定制ETL工作流。

Image Modified

5、

数据源

 

1、将关系数据源节点拖入画布区,在节点配置区设置关系数据源的参数。

 

Image Added

 

2、在关系数据源上右键选择 执行到此处 ,运行当前节点。

 

Image Added

 

3、点击查看输出,可查看关系数据源节点输出的数据,如下:

如图所示,通过以上步骤,将3个数据来源的表进行关联处理,最终输出数据到一张新的表中。

Image Added

第一个数据来源节点:本地Excel导入新增的表

将表的数据导入当前工作流完成,下面对数据进行 数据预处理 

第二个数据来源节点:通过SQL脚本构建供应商信息数据

数据预处理

第三个数据来源节点:Northwind数据源下的供应商表

需要在表中添加序号,并去除采购金额字段的小数位。

Image Removed

1、将增加序列号节点拖入画布区,连接两个节点,设置序列列名称。

打开数据源的位置,查看新增的表。

Image Added

Image Removed

2、将派生列节点拖入画布区,连接两个节点。在节点配置区选择 派生列配置 按钮。

 

 

 

 

 

 

 

 

 

 

 

 

面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid
toc

Image Added

3、将对应函数和字段分别拖入添加/编辑表达式区,点击 确定 按钮,添加一条“采购金额取整”的派生列。

Image Added

4、在派生列节点上右键,选择 执行到此处  ,运行当前节点查看派生列节点的输出数据如下:

Image Added

数据预处理完成,下面将处理好的数据输出。

目标源

将处理好的数据输出成一张新的表。

1、将关系目标源节点拖入画布区,选择输出表的数据源、SCHEMA,并选择 新建表 按钮。

Image Added

2、新的表命名为“产品销售数据表”,点击 创建表 按钮。

Image Added

3、点击 运行 按钮,创建一张新的表。

Image Added

流程运行完成后,关系目标源节点输出的数据如下:

Image Added

在数据源中查看刚才创建的“产品销售数据表”表,预览表中的数据如图:

Image Added

使用自助ETL处理数据完成,下面可对产品销售情况进行数据分析,详情请参考 可视化与分析数据 。


需求场景二:增量抽取

详情请参考:数据挖掘-参数设置