页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

在数据挖掘的流程中,数据的输入和输出也是必不可少的。

因为需要导入数据才可以进行后续的数据预处理、分析、建模等;以及将最后的结果数据,导出保存在指定的目标库。

所以Smartbi分别提供数据源和目标源节点,满足数据的输入和输出。

数据源
数据源
数据源

Smartbi提供了四种数据源用于数据输入,分别是文本数据源、Kafka数据源、关系数据源、示例数据源、数据集,支持从这几个数据来源中导入数据。


面板
borderColor#BBBBBB
bgColor#F0F0F0
borderWidth1
borderStylesolid

目录


文本数据源
文本数据源
文本数据源

概述

文本数据源是指将HDFS读取的csv等数据文件导入到Smartbi中。

输入/输出

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置文本数据源的参数:

设置说明如下:

参数说明
地址文本数据在HDFS的路径,其中:
  • <host>表示HDFS所在服务器IP地址;
  • <port>表示HDFS端口号;
  • <path>表示文本数据在HDFS服务中的路径;
    示例:hdfs://10.10.202.26:9000/data/mllib/UnitTest.csv
数据格式

选择文本的数据格式:csv、json、parquet、apache.orc。

文件编码选择当前数据文件的编码格式:GBK或UTF-8。
读取行数选择用于当前工作流的数据量:测试1000条、全部。

文本分隔符

选择当前数据文件中的分隔符:逗号、分号、空格、tab、竖线。
自动推断数据类型若需要自动判断数据源中字段的数据类型,则选true,否则选false。
自动生成表头表示上传数据时是否生成表头:若上传数据时没有表头,则选ture,系统自动生成表头;否则选false。

Kafka数据源

概述

Kafka数据源是指从kafka读取数据。

输入/输出

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置


设置说明如下:

参数说明
Kafka服务地址连接Kafka的地址。
Topic订阅的主题,一个topic可以看做为kafka中的一类消息。
偏移量

每条消息在文件中保存的位置被称为偏移量(offset),从指定的起点开始消费kafka数据。注:必须选择或者输入数字

  • 从头开始:从头开始消费kafka数据。
  • 继续上次:从上次结束作为起点开始消费kafka数据。
  • 自定义数字:指定某个位置作为起点开始消费kafka数据。
消息格式支持csv跟json格式,如果是csv格式,需要设置分隔符跟字段映射。

关系数据源
关系数据源
关系数据源

概述

关系数据源是指从Smartbi关系数据源中读取的库表数据。

信息
title支持数据库

目前支持Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL、Presto+hive、guass100、PG、星环hive、Greenplum。(V95目前不支持Greenplum,V97才支持)


输入/输出

输入

没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置关系数据源的参数:

设置说明如下:

参数
说明
数据源选择数据源,这些数据源是Smartbi中连接配置好的关系数据源。
SHEMA选择SHEMA。
表名选择表。
SQL语句通过SQL语句设置where条件,过滤出表中的数据用于工作流。

示例数据源
示例数据源
示例数据源

概述

示例数据源是指从系统中读取内置的示例数据源。

输入输出

输入没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置示例数据源的参数:

设置说明如下:

参数说明
数据源选择选择平台内置的示例数据源

数据集
数据集
数据集

概述

数据集是指从Smartbi中读取数据集中的数据,包含:可视化数据集、SQL数据集、原生SQL数据集、Java数据集、存储过程数据集、多维数据集、自助数据集。

输入输出

输入没有输入端口。
输出只有一个输出端口,用于输出数据到下一节点资源。

参数配置

设置数据集的参数:

设置说明如下:

参数
说明
请选择数据集用于单击按钮后,在“数据集选择”窗口中选择Smartbi中已定义的数据集。
新建数据集用于新建指定类型的数据集,选择数据集后,跳转到指定数据集的新建界面;可选的数据集类型有:自助数据集、原生SQL数据集、可视化数据集、存储过程数据集、Java数据集、多维数据集。
编辑已选数据集用于编辑选择的数据集,单击按钮后,会跳转到指定数据集的编辑界面。
数据更新设置用于设置数据集是否需要重新抽取:“更新抽取数据”表示需要重新抽取;“使用已抽取数据”表示不需要重新抽取。

目标源

Smartbi提供了4种方式用于数据的输出,分别是关系目标表(追加)、关系目标表(覆盖)、关系目标表(插入或更新)、导出数据到HDFS,支持将数据导出到目标库中。

关系目标表
关系目标表
关系目标表

概述

关系目标表通过追加、覆盖、插入或更新的方式将结果数据保存到Smartbi的关系数据源中。

类型说明

在原数据的基础上增加新的数据。

用新的数据对原数据进行覆盖。

对数据库原有的数据进行更新,对数据库不存在的数据进行插入(目前只支持Clickhouse数据库、SmartbiMPP高速缓存库)。


信息
title支持数据库

目前支持Infobright、ClickHouse、Vectical、Oracle、Mysql、DB2、MSSQL、PG、guass100、Greenplum

输入输出

输入只有一个输入端口,用于将接收到的结果数据存储到指定库中。
输出没有输出端口。

参数配置

关系目标源(追加)的参数:

关系目标源(覆盖)的参数:

关系目标源(插入或更新)的参数:

参数说明如下:

参数说明
数据源选择数据源,这些数据源是在Smartbi中连接的关系数据源。
SCHEMA在选择的数据源中选择SHEMA。

选择表。选择数据源和SCHEMA之后,可以选择新建一张表,也可以在下拉框中选择已有的表。

回退模式
  • 无(默认);
  • 追加前删除数据:先删除一部分或全部的数据,再将新数据追加到原数据中。

在删除SQL语句框中,填写where之后的删除语句(条件SQL使用表头真名):


注意:

1、目前只有ClickHouse数据源(19.4.2.7版本及以上)支持回退模式功能。

2、如果是新建的表,则表中不能有值为NULL的数据。

导出数据到HDFS
导出数据到HDFS
导出数据到HDFS

概述

导出数据到HDFS是指将结果数据保存到HDFS中。

输入输出

输入只有一个输入端口,用于将接收到的结果数据存储到HDFS中。
输出没有输出端口。

参数配置

设置导出数据到HDFS的参数:

Image Added

设置说明如下:

参数说明
IP和端口目标HDFS的路径的IP和端口:<ip>:<port>
示例:10.10.202.26:9000。
文件名存储到HDFS的数据文件名。
HDFS用户名HDFS用户名。
HDFS web端口HDFS web端口,默认是50070。


输出到数据集

概述

输出到数据集是指将结果数据以自助数据集的形式保存到Smartbi中。

Image Added

输入输出

输入只有一个输入端口,用于将接收到的结果数据存储到自助数据集中。
输出没有输出端口。

参数配置

设置导出数据到HDFS的参数:

设置说明如下:

参数说明
IP和端口目标HDFS的路径的IP和端口:<ip>:<port>
示例:10.10.202.26:9000。
文件名存储到HDFS的数据文件名。
HDFS用户名HDFS用户名。
HDFS web端口HDFS web端口,默认是50070。