页面树结构
转至元数据结尾
转至元数据起始

1、概述

作业流,是ETL作业依赖编排工具,用户可以通过图形化的界面,对ETL的依赖进行编排。其中,ETL依赖是指从原始数据到最终展现数据,可能需要经过多个ETL过程,ETL的执行存在着依赖关系。

作业,是用户在一次算题过程中或一个事务处理中要求计算机系统所做的工作的集合,正在执行的一个或多个相关进程被称为作业。一个作业可以分为若干个流(flow),如果流之间的处理是有先后顺序的,可以顺序的执行每一个流;如果流之间互不影响,则可以并行处理。

2、界面介绍

操作入口:在 数据准备 → 作业流 中,资源树上点击“新建 → 作业流”菜单项。

2.1 作业流设计界面



界面说明如下:

名称说明
“添加节点”面板或弹窗

可将通用节点,或自助ETL、作业流等资源当做作业拖拽到画布区中使用。

  • 通用:开始(每个作业流必须包含该节点)、检查依赖、检查文件存在、检查字段值、检查挖掘评估、循环器、Foreach循环器、参数输出、源库SQL脚本、Shell脚本;
  • 自助ETL节点;
  • 作业流节点。

资源树中的目录支持“刷新”、“全选节点并串联”、“全选节点并联”功能:

  • 刷新:可刷新所选目录;
  • 全选节点并串联、全选节点并联:可快速将选择的目录中所有的节点以串联或并联的方式在画布区中连接,减少重复操作。使用方法如下:
画布区

在画布区定制作业流,拖入节点、连线、进行节点配置。

画布工具栏

画布工具栏,放在了画布区的右下角、“日志”面板标题栏上的右侧位置。

  • 放大:用于放大画布区域;
  • 缩小:用于缩小画布区域;
  • 画布还原至100%:复原画布区域至默认大小;
  • 画布缩放到最佳比例:自动调整画布缩放比例;
  • 定位到中心点:定位到中心点的位置;
  • 自动布局:对画布区中所有节点,重新排布其位置;
  • 移动画布:可以用鼠标左键按住画布区拖动,让节点处于合适的位置。
“设置”面板

“设置”面板分为两种状态:

1、未选中画布中任何节点:作业流的相关属性。

  • 别名:作业流的别名,可修改。
  • 优先级:用于设置多个作业流并行运行的优先级。
  • 描述:对作业流的详细说明。

优先级运行规则:作业流按照“高 → 中 → 低”的优先级进行调度,遇到优先级同级的作业流则按顺序调度,超过最大运行数之后的作业流需要先排队等待(最大运行作业流数可参考 作业流配置项  进行设置)。打开 系统监控-作业流监控 页面,可查看正在执行和排队等待执行的作业流列表。示例:有高中低三个级别的作业流,设置了最大运行作业流数为2,则低级作业流需要等高级、中级作业流运行完成后才能运行。


2、选中画布中节点:设置面板区域依次出现参数、节点等设置项。其中在“参数”中,点击 编辑资源 按钮,打开选中节点资源,可查看、编辑节点资源。

主工具栏
  • 添加节点:打开“添加节点”面板,把通用、资源节点添加到画布中;
  • 撤销:撤销前一步操作;
  • 重做:恢复前一步撤销的操作;
  • 保存:保存新建作业流;
    • 另存为:将作业流另存为新的作业流;
  • 运行:执行作业流流程;
    • 运行当前节点:只允许当前选中的节点;
    • 从当前节点运行:从当前选中节点执行到作业流最后一个节点;
    • 运行到当前节点:从“开始”节点执行到当前选中节点;
  • 定时运行:设置作业流的定时任务,详情请参考 新建计划 。
  • 更多:
    • 参数管理:配置当前作业流中的公共参数,以便在作业流中使用;
    • 查看运行历史:作业流每次执行的结果作为历史信息都被记录下来,在历史信息页面展示,方便用户查看、对比结果;
    • 查看日志:查看作业流的执行过程日志。
“日志”面板 

“日志”面板的标题栏上,左侧显示了运行状态信息,右侧是画布工具栏。面板中间主体部分显示的作业流执行过程中输出的日志。

2.2 节点右键

各节点的右键菜单支持对工作流的相关操作。


这些右键菜单各项的说明如下:

右键菜单

说明

添加节点

打开“添加节点”弹窗,增加新的节点到画布中。

运行当前节点

作业流的节点间是有执行先后依赖关系以及有条件的依赖关系(线条上可以配置依赖条件), 这个菜单表示忽略了依赖关系,强行单独执行该节点。

从当前节点运行

作业流的节点间是有执行先后依赖关系以及有条件的依赖关系(线条上可以配置依赖条件), 这个菜单表示忽略了依赖关系,强行从当前节点资源开始执行。

运行到当前节点表示运行工作流时到当前节点资源结束。

删除

表示删除当前节点资源。

查看日志

用于查看当前节点资源的运行日志。

查看执行参数用于查看当前节点资源的执行参数。

用户执行带定时任务的作业流失败,重试定时任务时从失败节点开始执行

2.3 分支条件界面

选中节点连线,在右键菜单中选择 编辑条件 ,或者在右侧”设置“面板上点击 编辑条件 按钮。

设置项说明如下:

设置项

说明

依赖作业设置分支条件的作业流节点。
目标作业依赖作业下一个执行顺序的节点,如果满足设置条件会继续运行目标作业,如果不满足则作业流不会运行依赖作业以后的节点。
条件类型作业参数

将设置的参数作为条件,判断如果满足条件,则运行目标作业,如果不满足则不执行目标作业。

参数来源:依赖作业中设置的参数。如下图参数“UnitPrice”来源于自助ETL2作业中设置的参数。

关于如何设置依赖作业中的参数,可参考 数据挖掘-参数设置 。

作业状态条件分为成功、失败两种,表示依赖作业如果成功或失败,就运行目标作业。

3、操作步骤

1、 数据准备 → 自助ETL 中,资源树上点击“新建 → 作业流”菜单项。

2、每个作业流必须包含”开始“节点,拖拽“开始”节点到画布区。

3、在”添加节点“面板或弹窗中,可拖拽 通用节点、自助ETL、ETL自动化、作业流和数据模型节点,并连接节点之间的连线。


4、双击节点之间的连线,或选中连线后点击”设置“面板上的”编辑条件“按钮。设置分支条件,条件类型选择“作业状态”,条件选择“成功”,点击 + 按钮,添加条件。

  • 条件表示:如果依赖节点11运行成功,才会执行目标作业22节点,否则不会执行下去。

5、点击工具栏中的 运行/运行当前节点 按钮,运行节点。节点运行成功后,点击 定时运行 按钮,设置该作业流的定时任务。

设置的定时任务如下:

6、设置完成后保存任务,保存新建的作业流。用户创建完成作业流后,可对作业流进行监控。

4、作业流监控

4.1 作业流监控

用户可在数据准备页面中点击 抽取监控 按钮,监控作业流执行计划任务状况,了解作业流的结果,详情请参考 作业流监控

4.2 运维人员监控

运维人员可通过 系统监控>作业流监控 ,监控作业流作业的运行情况,详情请参考 系统监控-作业流监控

关于在线作业流和和排队作业流作业数的配置项,详情请参考  作业流 。