第216页,共422页。 显示 4,212 条结果 (0.055 秒)
ETL自动化工程
、以上配置完成后,单击右下角 下载 按钮,将配置好的内容以Excel模板的介质存储到本地。示例文件如下: ExcelTemplate.xlsx Excel中各主要标签页说明如下: 标签页 说明 系统清单 列举所有数据源(来源、目标)的名称、数据库信息等 变量与参数 为了简化表述而使用的变量或参数。该表可以为空 目标系统数据字典 以 数据源 → schema → 表名 → 字段的结构排列 列举目标数据源的对应目标表中所有写入的字段名称、字段类型、主键信息等 表清单 列举本次ETL自动化中创建的所有ETL资源,及其中分别用到的数据源和目标源信息 字段映射清单 列举来源表和目标表之间数据挖掘-正则表达式
概述 在处理文本过程中,经常会使用正则表达式去处理,目前ETL正则处理文本功能较弱,多个ETL项目中均有实施人员提到希望增强该功能。 image2023-1-29_13-57-9.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出正则表达式处理后的结果。 参数设置 设置正则表达式处理的参数: image2023-1-29_13-58-56.png 设置说明如下: 参数 说明 选择列 要进行正则表达式处理的列。 正则表达式 要匹配的正则表达式。 输出方式 匹配数据挖掘-去除重复值
概述 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 image2020-5-29 14:4:51.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出去除重复值的结果。 参数设置 设置去除重复值的参数: image2021-9-23_15-33-52.png 设置说明如下: 参数 说明 选择列 用于选择进行去除重复值设置的列: image2021-9-23_15-34-14.png 示例 1、原先关系数据源的输出结果有12条数据,对其进行去除数据挖掘-排序
概述 排序节点可实现对单个字段或多个字段组合的升序或降序排序。 image2020-5-29 15:34:25.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出排序的结果。 参数设置 设置排序的参数: image2020-5-29 15:35:36.png 设置说明如下: 参数 说明 排序 用于选择排序字段及排序优先级: image2020-5-29 15:36:42.png 1、添加排序:添加排序字段,可单选或多选排序列。 当选择多列时,平台会根据选择的第一列进行排序数据挖掘-正则表达式
概述 在处理文本过程中,经常会使用正则表达式去处理,目前ETL正则处理文本功能较弱,多个ETL项目中均有实施人员提到希望增强该功能。 image2023-1-29_13-57-9.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出正则表达式处理后的结果。 参数设置 设置正则表达式处理的参数: image2023-1-29_13-58-56.png 设置说明如下: 参数 说明 选择列 要进行正则表达式处理的列。 正则表达式 要匹配的正则表达式。 输出方式 匹配数据挖掘-日期时间
概述 用户在录入日期类型数据时,经常会遇到日期格式不统一的问题。 image2023-1-29_14-9-3.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出日期时间处理后的结果。 参数设置 设置日期时间处理的参数: image2023-1-29_14-9-56.png 设置说明如下: 参数 说明 选择列 要进行日期时间处理的列。 新增列后缀 输出结果的列名后缀。 输入字段格式 输入字段的日期时间格式 输出字段格式 处理后输出字段的日期时间格式数据挖掘-去除重复值
概述 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 image2020-5-29 14:4:51.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出去除重复值的结果。 参数设置 设置去除重复值的参数: image2021-9-23_15-33-52.png 设置说明如下: 参数 说明 选择列 用于选择进行去除重复值设置的列: image2021-9-23_15-34-14.png 示例 1、原先关系数据源的输出结果有12条数据,对其进行去除数据挖掘-排序
概述 排序节点可实现对单个字段或多个字段组合的升序或降序排序。 image2020-5-29 15:34:25.png 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出排序的结果。 参数设置 设置排序的参数: image2020-5-29 15:35:36.png 设置说明如下: 参数 说明 排序 用于选择排序字段及排序优先级: image2020-5-29 15:36:42.png 1、添加排序:添加排序字段,可单选或多选排序列。 当选择多列时,平台会根据选择的第一列进行排序数据挖掘-SMOTE
概述 SMOTE算法通过对少数样本的分析可以合成新的样本,是一种过采样技术。 image2020-9-1_16-42-57.png 输入输出 输入 只有一个输入端口,用于接收原始数据集。 输出 只有一个输出端口,用于输出过采样后的全部数据集。 参数说明 设置SMOTE的参数: image2020-11-6_17-9-21.png 设置项说明如下: 参数 说明 备注 选择标签列 用于选择输入数据集的某一列作为标签列。 单选 标签类别 输入目标列中需要进行SMOTE算法的类别值。 文本框,标签的类别值(必填数据挖掘-过滤
概述 根据用户需求,通过写SQL语句(片段)的方式,对数据集中指定字段进行条件筛选过滤。 image2020-9-8_9-10-20.png 10.5.15版本后,左侧资源树不再显示过滤节点,但是旧的过滤节点仍能正常使用,建议使用最新的行过滤节点完成过滤操作。 输入/输出 输入 一个输入端口,用于接收数据集。 输出 一个输出端口,用于输出过滤的结果。 参数设置 设置过滤与映射的参数: image2020-5-21 13:58:29.png 设置说明如下: 参数 说明 过滤器 对数据的指定字段进行过滤