数据源
Smartbi支持从以下几个数据来源中导入数据:
节点 | 说明 |
---|---|
文本数据源 | 支持从hdfs中读取Json、csv、parquet等类型的文件 |
FTP/SFTP数据源 | FTP/SFTP数据源数据源是指通过FTP或SFTP方式读取数据。(原FTP数据源) |
Kafka数据源 | 支持从Kafka中读取数据。 |
关系数据源 | 关系数据源是指从Smartbi关系数据源中读取的库表数据。 |
Mongo数据源 | MongoDB是一个基于分布式文件存储的数据库。 |
数据查询 | 数据查询是指新建或编辑数据模型的私有查询,然后将新建的私有查询转换为表放到高速缓存库中作为数据源。 |
Excel文件/读取Excel sheet | Excel文件数据源是指将Excel文件中的数据导入到Smartbi中。 |
API取数 | 支持通过调用API方式,从其它系统中获取数据的场景。 |
ES数据源 | 读取elasticsearch中的表数据,其中表为二维数据表。 |
目标源
Smartbi提供了2种方式用于数据的输出,分别是关系目标源(追加)、关系目标源(覆盖)、关系目标源(插入或更新)、导出数据到HDFS。
名称 | 使用说明 |
---|---|
关系目标源 | 关系目标源通过追加、覆盖、插入或更新的方式将结果数据保存到Smartbi的关系数据源中。 |
数据预处理
自助ETL拥有强大的数据处理功能,对各种结构化数据,可进行排序、去重、映射、行列合并等处理,满足客户日常数据处理的需要。
使用数据预处理可以:
1、提高数据的质量。
2、让数据更好地适应特定的挖掘技术或工具。
名称 | 使用说明 | 拆分 | 将原始样本集按照训练集和测试集的方式拆分为两个子集。|
---|---|---|---|
过滤 | 根据用户需求,通过写SQL语句(片段)的方式,对数据集中指定字段进行条件筛选过滤。 | ||
列选择 | 列选择节点用于从输入数据集中选取指定的数据字段。 | ||
空值处理 | 空值处理节点是将空值替换为均值、最大频数或者用户自定义的值等,实现空值的填充或者过滤。 | ||
合并列/合并行 | 将表的数据按列或按行合并,组成新表。 | ||
元数据编辑 | 元数据编辑支持对数据集中的字段进行重新命名或者修改数据类型。 | ||
JOIN | JOIN是基于连接字段和给定的连接方式,进行两个数据集字段的组合后得到新的数据表。 | ||
行选择 | 行选择是根据不同的筛选或者删除条件,选择不同数量的行。 | ||
去除重复值 | 去除重复值是用于删除数据集中的重复行(假如有两行相同,保留其中一行)。 | ||
排序 | 排序节点可实现对单个字段或多个字段组合的升序或降序排序。 | ||
增加序列号 | 增加序列号节点是在数据表第一列追加ID列。 | ||
聚合 | 聚合可根据用户的需求对数据进行各种聚合运算。 | ||
分列 | 将字符串字段的内容进行分割。 | ||
派生列 | 派生列节点是用于在数据集中生成可行的新特征字段。 | ||
行转列/列转行 | 将数据表中的行转换成列或将列转换成行。 |
统计分析
统计分析是指运用统计方法及与分析对象有关的知识,对数据进行统计处理与分析。
名称 | 使用说明 |
---|---|
相关性分析 | 相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关。 |
假设检验 | 假设校验是通过特征变量与目标变量之间的偏差来检验数据之间的相关性或回归分析中的拟合结果。 |
自定义离散 | 自定义离散是将连续的属性进行离散化操作,方便数据挖掘处理。 |
CBLOF | CBLOF是基于聚类的局部离群因子,用聚类算法对数据进行聚集,通过设定的参数划分大聚类簇和小聚类簇,并计算每个数据点离最近的大聚类簇中心的距离。距离大的数据点被认定为异常值。 |
RFM | RFM通过对选择的特征列按照阈值进行二分(可按均值、指定值、中值),将客户数据划分为不同的客群。 |
自定义模块
自定义模块是通过手动输入SQL或Python语言对数据进行数据处理、分析或查询。
名称 | 使用说明 | ||
---|---|---|---|
Spark SQL脚本 | SQL脚本支持手动输入SQL语言完成对数据进行处理和查询的任务。 | 源库SQL脚本 | 源库SQL脚本支持一次手动输入多条SQL语言对数据库进行操作。|
PYTHON脚本 | 支持用Python语言编程实现数据处理、数据分析等功能。 |