数据源
Smartbi支持从以下几个数据来源中导入数据:
节点 | 说明 | ||
---|---|---|---|
文本数据源 | 文本数据源是指将HDFS读取的csv等数据文件导入到Smartbi中。 | ||
Kafka数据源 | Kafka数据源是指从kafka读取数据。 | ||
关系数据源 | 关系数据源是指从Smartbi关系数据源中读取的库表数据。 | ||
示例数据源 | 示例数据源是指从系统中读取内置的示例数据源。 | ||
ETL高级查询-功能节点介绍69737203 | 数据查询是指新建或编辑增强数据集的私有查询,然后将新建的私有查询转换为表放到高速缓存库中作为数据源。数据查询是指新建或编辑数据模型的私有查询,然后将新建的私有查询转换为表放到高速缓存库中作为数据源。 | ||
数据集 | 数据集是指从Smartbi中读取数据集中的数据。
| ||
Excel文件/读取Excel sheet | Excel文件数据源是指将Excel文件中的数据导入到Smartbi中。 |
锚 | ||||
---|---|---|---|---|
|
数据查询
概述
数据查询是指新建或编辑增强数据集的私有查询(SQL查询、即席查询、脚本查询、存储过程查询),然后将新建的私有查询转换为表放到高速缓存库中作为数据源。数据查询是指新建或编辑数据模型的私有查询(SQL查询、即席查询、脚本查询、存储过程查询),然后将新建的私有查询转换为表放到高速缓存库中作为数据源。
数据查询的数据存储在高速缓存库中,所以高速缓存库配置的URL建议使用IP的方式连接,使用域名的方式连接有可能连接不上该数据库(不推荐)。
输入/输出
输入 | 没有输入端口。 |
---|---|
输出 | 只有一个输出端口,用于输出数据到下一节点资源。 |
参数配置
设置数据查询的参数:
设置说明如下:
参数 | 说明 |
---|---|
请选择数据查询类型 | 数据查询类型包括:SQL查询、即席查询、脚本查询、存储过程查询。 |
新建/编辑数据查询 | 点击按钮新建或编辑数据查询,详情请参考 增强数据集数据模型-私有查询 。
数据查询类型为即席查询时,支持修改字段的别名,只对当前ETL高级查询生效。 |
输出到MPP
输出到MPP节点是将结果数据保存到Smartbi的高速缓存库的表中,不能删除此节点。
数据预处理
ETL高级查询拥有强大的数据处理功能,对各种结构化数据,可进行排序、去重、映射、行列合并等处理,满足用户日常数据处理的需要。
使用数据预处理可以:
1、提高数据的质量。
2、让数据更好地适应特定的挖掘技术或工具。
节点 | 说明 |
---|---|
采样 | 按照某种规则从数据集中挑选样本数据。 |
SMOTE | 通过对少数样本的分析可以合成新的样本,是一种过采样技术。 |
拆分 | 将原始样本集按照训练集和测试集的方式拆分为两个子集。 |
过滤 | 根据用户需求,通过写SQL语句(片段)的方式,对数据集中指定字段进行条件筛选过滤。 |
列选择 | 用于从输入数据集中选取指定的数据字段。 |
空值处理 | 将空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤。 |
值替换 | 用于对字段中指定的值进行替换。 |
数据清洗 | 用于规范化字符串,可移除字符串中空格、标点符号、字母、数字等不必要的字符,或设置大小写方式。 |
合并列/合并行 | 将两张表的数据按列或按行合并,组成新表。 |
元数据编辑 | 元数据编辑支持对数据集中的字段进行重新命名或者修改数据类型。 |
JOIN | JOIN是基于连接字段和给定的连接方式,进行两个数据集字段的组合后得到新的数据表。 |
行选择 | 行选择是根据不同的筛选或者删除条件,选择不同数量的行。 |
去除重复值 | 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 |
排序 | 排序节点可实现对单个字段或多个字段组合的升序或降序排序。 |
增加序列号 | 增加序列号节点是在数据表第一列追加ID列。 |
聚合 | 聚合可根据用户的需求对数据进行各种聚合运算。 |
拆分列 | 将字符串字段的内容进行分割。 |
派生列 | 派生列节点是用于在数据集中生成可行的新特征字段。 |
行转列/列转行 | 将数据表中的行转换成列或将列转换成行。 |
脚本模块
脚本模块是通过手动输入SQL或Python语言对数据进行数据处理、分析或查询。